CN115620894A - 基于基因突变的肺癌免疫疗效预测方法、系统及存储介质 - Google Patents
基于基因突变的肺癌免疫疗效预测方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115620894A CN115620894A CN202211144192.4A CN202211144192A CN115620894A CN 115620894 A CN115620894 A CN 115620894A CN 202211144192 A CN202211144192 A CN 202211144192A CN 115620894 A CN115620894 A CN 115620894A
- Authority
- CN
- China
- Prior art keywords
- snv
- lung cancer
- feature
- curative effect
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Pathology (AREA)
- Genetics & Genomics (AREA)
- Primary Health Care (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于基因突变的肺癌免疫疗效预测方法、系统及存储介质,方法包括:从非小细胞肺癌患者的样本测序数据中获取第一SNV特征集;通过随机森林算法对第一SNV特征集进行特征选择得到多个第一突变基因,并根据第一突变基因生成第一特征基因组;根据第一特征基因组构建训练样本集,并将训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型;获取待预测肺癌患者的第二SNV数据,并根据第二SNV数据确定第二特征基因组,进而将第二特征基因组输入到肺癌免疫疗效预测模型,得到待预测肺癌患者的肺癌免疫疗效预测结果。本发明提高了肺癌免疫疗效预测的准确性和可靠性,可广泛应用于人工智能技术领域。
Description
技术领域
本发明涉及人工智能技术领域,尤其是一种基于基因突变的肺癌免疫疗效预测方法、系统及存储介质。
背景技术
虽然近年来已证实免疫检查点阻断(ICB)在非小细胞肺癌(NSCLC)的预测中是成功的,但这些生物标志物的预测价值相对有限,如PD-L1表达、肿瘤突变负荷(TMB)和基因表达谱(GEP),因此,寻找更多有效、准确的生物标志物来预测ICB受益是至关重要的。
相关研究表明,来自单核苷酸变异(SNV)的突变基因与ICB反应显著相关,STK11、B2M和EGFR突变或MDM2扩增已被报道与低反应性甚至高进展性疾病(HPD)相关。相反,TP53、KRAS和POLE突变,或KP(KRAS和TP53的共同突变)分子亚型与晚期NSCLC的ICB反应呈正相关。此外,在非小细胞肺癌患者中,DDR和NOTCH通路的突变或协同突变显示ICB对临床有很好的益处。
由上述内容可知,亟需开发一种基于SNV突变基因来预测肺癌免疫疗效的方法,以提高肺癌免疫疗效预测的准确性和可靠性。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本发明实施例的一个目的在于提供一种基于基因突变的肺癌免疫疗效预测方法,该方法提高了肺癌免疫疗效预测的准确性和可靠性。
本发明实施例的另一个目的在于提供一种基于基因突变的肺癌免疫疗效预测系统。
为了达到上述技术目的,本发明实施例所采取的技术方案包括:
第一方面,本发明实施例提供了一种基于基因突变的肺癌免疫疗效预测方法,包括以下步骤:
从非小细胞肺癌患者的样本测序数据中获取第一SNV特征集;
通过随机森林算法对所述第一SNV特征集进行特征选择得到多个第一突变基因,并根据所述第一突变基因生成第一特征基因组;
根据所述第一特征基因组构建训练样本集,并将所述训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型;
获取待预测肺癌患者的第二SNV数据,并根据所述第二SNV数据确定第二特征基因组,进而将所述第二特征基因组输入到所述肺癌免疫疗效预测模型,得到所述待预测肺癌患者的肺癌免疫疗效预测结果。
进一步地,在本发明的一个实施例中,所述从非小细胞肺癌患者的样本测序数据中获取第一SNV特征集这一步骤,其具体包括:
获取预设的多个非小细胞肺癌患者的第一样本,所述第一样本为肿瘤样本或血液样本;
对所述第一样本进行基因测序得到样本测序数据;
将所述样本测序数据与预设的人体参考基因组进行比对,确定所述第一样本的SNV特征位点;
根据所述SNV特征位点确定所述第一SNV特征集。
进一步地,在本发明的一个实施例中,所述通过随机森林算法对所述第一SNV特征集进行特征选择得到多个第一突变基因这一步骤,其具体包括:
根据所述第一SNV特征集构建随机森林,并通过所述第一SNV特征集训练所述随机森林的各个决策树,进而根据所述决策树确定所述SNV特征位点的特征重要性;
根据所述特征重要性对所述SNV特征位点进行降序排序得到第一SNV特征序列,并按照预设的剔除比例从所述第一SNV特征序列中剔除排序值靠后的若干个SNV特征位点,得到第二SNV特征序列;
根据所述第二SNV特征序列更新所述第一SNV特征集,并返回根据所述第一SNV特征集构建随机森林这一步骤,直至所述第一SNV特征集中剩余的SNV特征位点的数量达到预设的第一阈值,确定剩余的SNV特征位点为所述第一突变基因。
进一步地,在本发明的一个实施例中,所述根据所述决策树确定所述SNV特征位点的特征重要性这一步骤,其具体包括:
获取所述第一SNV特征集的袋外数据,根据所述袋外数据计算得到所述决策树的第一袋外数据误差;
对所述袋外数据的SNV特征位点加入噪声干扰得到干扰袋外数据,并根据所述干扰袋外数据计算得到所述决策树的第二袋外数据误差;
根据所述第一袋外数据误差和所述第二袋外数据误差确定所述SNV特征位点的特征重要性。
进一步地,在本发明的一个实施例中,所述根据所述第一特征基因组构建训练样本集这一步骤,其具体包括:
根据所述非小细胞肺癌患者的肺癌免疫疗效观测结果对所述第一特征基因组进行标注,得到肺癌免疫疗效标签;
根据所述第一特征基因组和对应的肺癌免疫疗效标签构建训练样本集。
进一步地,在本发明的一个实施例中,所述将所述训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型这一步骤,其具体包括:
将所述训练样本集输入到预先构建的卷积神经网络,得到第一预测结果;
根据所述第一预测结果和所述肺癌免疫疗效标签确定所述卷积神经网络的损失值;
根据所述损失值通过反向传播算法更新所述卷积神经网络的参数;
当损失值达到预设的第二阈值或迭代次数达到预设的第三阈值,停止训练,得到训练好的肺癌免疫疗效预测模型。
进一步地,在本发明的一个实施例中,所述获取待预测肺癌患者的第二SNV数据,并根据所述第二SNV数据确定第二特征基因组这一步骤,其具体包括:
从待预测肺癌患者的样本测序数据中获取第二SNV特征集;
通过随机森林算法对所述第二SNV特征集进行特征选择得到多个第二突变基因,并根据所述第二突变基因生成第二特征基因组。
第二方面,本发明实施例提供了一种基于基因突变的肺癌免疫疗效预测系统,包括:
SNV特征集获取模块,用于从非小细胞肺癌患者的样本测序数据中获取第一SNV特征集;
特征基因组生成模块,用于通过随机森林算法对所述第一SNV特征集进行特征选择得到多个第一突变基因,并根据所述第一突变基因生成第一特征基因组;
模型训练模块,用于根据所述第一特征基因组构建训练样本集,并将所述训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型;
模型预测模块,用于获取待预测肺癌患者的第二SNV数据,并根据所述第二SNV数据确定第二特征基因组,进而将所述第二特征基因组输入到所述肺癌免疫疗效预测模型,得到所述待预测肺癌患者的肺癌免疫疗效预测结果。
第三方面,本发明实施例提供了一种基于基因突变的肺癌免疫疗效预测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的一种基于基因突变的肺癌免疫疗效预测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行上述的一种基于基因突变的肺癌免疫疗效预测方法。
本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到:
本发明实施例从非小细胞肺癌患者的样本测序数据中获取第一SNV特征集,然后通过随机森林算法对第一SNV特征集进行特征选择得到多个第一突变基因,并根据第一突变基因生成第一特征基因组,再根据第一特征基因组构建训练样本集,并将训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型,从而可以根据肺癌免疫疗效预测模型对待预测肺癌患者进行肺癌免疫疗效预测。本发明实施例通过随机森林算法对SNV特征集进行特征选择可以提取出与ICB反应高度相关的突变基因,然后根据这些突变基因生成特征基因组用于训练肺癌免疫疗效预测模型,充分利用了SNV突变基因与肺癌免疫疗效的相关性,提高了肺癌免疫疗效预测的准确性和可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面对本发明实施例中所需要使用的附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本发明实施例提供的一种基于基因突变的肺癌免疫疗效预测方法的步骤流程图;
图2为本发明实施例提供的一种基于基因突变的肺癌免疫疗效预测系统的结构框图;
图3为本发明实施例提供的一种基于基因突变的肺癌免疫疗效预测装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,多个的含义是两个或两个以上,如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。
参照图1,本发明实施例提供了一种基于基因突变的肺癌免疫疗效预测方法,具体包括以下步骤:
S101、从非小细胞肺癌患者的样本测序数据中获取第一SNV特征集。
具体地,人体基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据,在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变,也即SNV。本发明实施例通过对非小细胞肺癌患者的样本测序数据和人体参考基因组进行比对获取SNV特征集,该SNV特征集包括多个SNV特征位点(即单核苷酸变异位点),可用于后续肺癌免疫疗效预测模型的训练。步骤S101具体包括以下步骤:
S1011、获取预设的多个非小细胞肺癌患者的第一样本,第一样本为肿瘤样本或血液样本;
S1012、对第一样本进行基因测序得到样本测序数据;
S1013、将样本测序数据与预设的人体参考基因组进行比对,确定第一样本的SNV特征位点;
S1014、根据SNV特征位点确定第一SNV特征集。
具体地,本发明实施例采用NGS基因测序对第一样本进行处理得到样本测序数据。新一代测序(NGS)是一种大规模平行测序技术,能够以超高的通量、超强的可扩展性和超快的速度进行测序,该技术用于确定整个基因组或DNA或RNA的目标区域中核苷酸的顺序。
S102、通过随机森林算法对第一SNV特征集进行特征选择得到多个第一突变基因,并根据第一突变基因生成第一特征基因组。
具体地,本发明实施例通过随机森林算法对SNV特征集中的SNV特征位点进行特征选择,仅保留特征重要性高的多个SNV特征位点作为第一突变基因,然后组合生成第一特征基因组。
进一步作为可选的实施方式,通过随机森林算法对第一SNV特征集进行特征选择得到多个第一突变基因这一步骤,其具体包括:
A1、根据第一SNV特征集构建随机森林,并通过第一SNV特征集训练随机森林的各个决策树,进而根据决策树确定SNV特征位点的特征重要性;
A2、根据特征重要性对SNV特征位点进行降序排序得到第一SNV特征序列,并按照预设的剔除比例从第一SNV特征序列中剔除排序值靠后的若干个SNV特征位点,得到第二SNV特征序列;
A3、根据第二SNV特征序列更新第一SNV特征集,并返回根据第一SNV特征集构建随机森林这一步骤,直至第一SNV特征集中剩余的SNV特征位点的数量达到预设的第一阈值,确定剩余的SNV特征位点为第一突变基因。
具体地,特征选择的目标有两个:一是找到与应变量高度相关的特征变量(即SNV特征位点),二是选择出数目较少并且能够充分的预测应变量的特征变量。
本发明实施例中通过随机森林算法进行特征选择的步骤为:1)对随机森林中的SNV特征位点按照特征重要性进行降序排序;2)确定删除比例,从当前的SNV特征位点中剔除相应比例不重要的指标,从而得到一个新的SNV特征集;3)利用新的SNV特征集建立新的随机森林,重新计算SNV特征位点的特征重要性并进行排序;4)重复以上步骤,直到剩下预设数量的SNV特征位点。
进一步作为可选的实施方式,根据决策树确定SNV特征位点的特征重要性这一步骤,其具体包括:
B1、获取第一SNV特征集的袋外数据,根据袋外数据计算得到决策树的第一袋外数据误差;
B2、对袋外数据的SNV特征位点加入噪声干扰得到干扰袋外数据,并根据干扰袋外数据计算得到决策树的第二袋外数据误差;
B3、根据第一袋外数据误差和第二袋外数据误差确定SNV特征位点的特征重要性。
具体地,在随机森林中某个SNV特征位点的特征重要性的计算方法如下:
1)对于随机森林中的每一颗决策树,使用相应的袋外数据来计算它的袋外数据误差,记为errOOB1;
可以理解的是,每次建立决策树时,通过重复抽样得到数据用于训练决策树,这时还有大约1/3的数据没有被利用,即没有参与决策树的建立,这部分数据可以用于对决策树的性能进行评估,计算模型的预测错误率,即为袋外数据。
2)随机地对袋外数据所有样本的SNV特征位点加入噪声干扰(如随机改变样本在SNV特征位点处的值),再次计算决策树的袋外数据误差,记为errOOB2;
3)假设随机森林中有N个决策树树,那么SNV特征位点的特征重要性可以通过下式计算得到;
Y=∑(errOOB2-errOOB1)/N;
可以理解的是,若给某个特征随机加入噪声之后,袋外数据的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也即相当于其重要程度比较高。
本发明实施例中,将第一阈值设为55,通过随机森林算法筛选出的55个突变基因如下表1所示。
表1
S103、根据第一特征基因组构建训练样本集,并将训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型。
进一步作为可选的实施方式,根据第一特征基因组构建训练样本集这一步骤,其具体包括:
C1、根据非小细胞肺癌患者的肺癌免疫疗效观测结果对第一特征基因组进行标注,得到肺癌免疫疗效标签;
C2、根据第一特征基因组和对应的肺癌免疫疗效标签构建训练样本集。
进一步作为可选的实施方式,将训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型这一步骤,其具体包括:
D1、将训练样本集输入到预先构建的卷积神经网络,得到第一预测结果;
D2、根据第一预测结果和肺癌免疫疗效标签确定卷积神经网络的损失值;
D3、根据损失值通过反向传播算法更新卷积神经网络的参数;
D4、当损失值达到预设的第二阈值或迭代次数达到预设的第三阈值,停止训练,得到训练好的肺癌免疫疗效预测模型。
具体地,本发明实施例的肺癌免疫疗效预测模型可基于卷积神经网络搭建,包括一个一维卷积层,卷积核为16,卷积核为128,步长为1。首先,对输入信息进行嵌入式处理;其次,使用了tanh激活函数,然后使用maxpooling方法来降低维度。首次降维后,对矢量进行一维卷积计算,卷积核为32,空间域为3。然后进行批量归一化。采用adam作为深层神经网络优化梯度下降法,以sgd作为学习方法,学习率为001。在此基础上,本发明实施例使用了高密度的全连接网络和软最大激活函数的输出结果作为预测结果。
上述公式中的求和部分等价于求解一个互相关函数,其中b是偏差,Zl和Zl+1分别表示层l+1的卷积输入和输出,也称为特征映射;Ll+1表示Zl+1的维数;K表示通道数;f、s0和p分别表示卷积内核大小、卷积和填充层数。
将训练数据集中的数据输入到初始化后的肺癌免疫疗效预测模型后,可以得到模型输出的预测结果,可以用该预测结果和前述的肺癌免疫疗效标签来评估肺癌免疫疗效预测模型的准确性,从而对模型的参数进行更新。对于肺癌免疫疗效预测模型来说,模型预测结果的准确性可以通过损失函数(Loss Function)来衡量,损失函数是定义在单个训练数据上的,用于衡量一个训练数据的预测误差,具体是通过单个训练数据的标签和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时,一个训练数据集有很多训练数据,因此一般采用代价函数(Cost Function)来衡量训练数据集的整体误差,代价函数是定义在整个训练数据集上的,用于计算所有训练数据的预测误差的平均值,能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说,基于前述的代价函数,再加上衡量模型复杂度的正则项即可作为训练的目标函数,基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多,例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数,在此不再一一阐述。本发明实施例中,可以从中任选一种损失函数来确定训练的损失值。基于训练的损失值,采用反向传播算法对模型的参数进行更新,迭代几轮即可得到训练好的肺癌免疫疗效预测模型。具体地迭代轮数可以预先设定,或者在测试集达到精度要求时认为训练完成。
S104、获取待预测肺癌患者的第二SNV数据,并根据第二SNV数据确定第二特征基因组,进而将第二特征基因组输入到肺癌免疫疗效预测模型,得到待预测肺癌患者的肺癌免疫疗效预测结果。
进一步作为可选的实施方式,获取待预测肺癌患者的第二SNV数据,并根据第二SNV数据确定第二特征基因组这一步骤,其具体包括:
E1、从待预测肺癌患者的样本测序数据中获取第二SNV特征集;
E2、通过随机森林算法对第二SNV特征集进行特征选择得到多个第二突变基因,并根据第二突变基因生成第二特征基因组。
具体地,获取待预测肺癌患者的第二SNV数据以及提取第二特征基因组的方法与前述获取第一SNV数据的方法相类似,在此不作赘述。得到第二特征基因组后,输入前述训练的到的肺癌免疫疗效预测模型即可得到待预测肺癌患者的肺癌免疫疗效预测结果。
以上对本发明实施例的方法步骤进行了说明。可以理解的是,本发明实施例通过随机森林算法对SNV特征集进行特征选择可以提取出与ICB反应高度相关的突变基因,然后根据这些突变基因生成特征基因组用于训练肺癌免疫疗效预测模型,充分利用了SNV突变基因与肺癌免疫疗效的相关性,提高了肺癌免疫疗效预测的准确性和可靠性。
参照图2,本发明实施例提供了一种基于基因突变的肺癌免疫疗效预测系统,包括:
SNV特征集获取模块,用于从非小细胞肺癌患者的样本测序数据中获取第一SNV特征集;
特征基因组生成模块,用于通过随机森林算法对第一SNV特征集进行特征选择得到多个第一突变基因,并根据第一突变基因生成第一特征基因组;
模型训练模块,用于根据第一特征基因组构建训练样本集,并将训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型;
模型预测模块,用于获取待预测肺癌患者的第二SNV数据,并根据第二SNV数据确定第二特征基因组,进而将第二特征基因组输入到肺癌免疫疗效预测模型,得到待预测肺癌患者的肺癌免疫疗效预测结果。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
参照图3,本发明实施例提供了一种基于基因突变的肺癌免疫疗效预测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当上述至少一个程序被上述至少一个处理器执行时,使得上述至少一个处理器实现上述的一种基于基因突变的肺癌免疫疗效预测方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,该处理器可执行的程序在由处理器执行时用于执行上述一种基于基因突变的肺癌免疫疗效预测方法。
本发明实施例的一种计算机可读存储介质,可执行本发明方法实施例所提供的一种基于基因突变的肺癌免疫疗效预测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于基因突变的肺癌免疫疗效预测方法,其特征在于,包括以下步骤:
从非小细胞肺癌患者的样本测序数据中获取第一SNV特征集;
通过随机森林算法对所述第一SNV特征集进行特征选择得到多个第一突变基因,并根据所述第一突变基因生成第一特征基因组;
根据所述第一特征基因组构建训练样本集,并将所述训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型;
获取待预测肺癌患者的第二SNV数据,并根据所述第二SNV数据确定第二特征基因组,进而将所述第二特征基因组输入到所述肺癌免疫疗效预测模型,得到所述待预测肺癌患者的肺癌免疫疗效预测结果。
2.根据权利要求1所述的一种基于基因突变的肺癌免疫疗效预测方法,其特征在于,所述从非小细胞肺癌患者的样本测序数据中获取第一SNV特征集这一步骤,其具体包括:
获取预设的多个非小细胞肺癌患者的第一样本,所述第一样本为肿瘤样本或血液样本;
对所述第一样本进行基因测序得到样本测序数据;
将所述样本测序数据与预设的人体参考基因组进行比对,确定所述第一样本的SNV特征位点;
根据所述SNV特征位点确定所述第一SNV特征集。
3.根据权利要求2所述的一种基于基因突变的肺癌免疫疗效预测方法,其特征在于,所述通过随机森林算法对所述第一SNV特征集进行特征选择得到多个第一突变基因这一步骤,其具体包括:
根据所述第一SNV特征集构建随机森林,并通过所述第一SNV特征集训练所述随机森林的各个决策树,进而根据所述决策树确定所述SNV特征位点的特征重要性;
根据所述特征重要性对所述SNV特征位点进行降序排序得到第一SNV特征序列,并按照预设的剔除比例从所述第一SNV特征序列中剔除排序值靠后的若干个SNV特征位点,得到第二SNV特征序列;
根据所述第二SNV特征序列更新所述第一SNV特征集,并返回根据所述第一SNV特征集构建随机森林这一步骤,直至所述第一SNV特征集中剩余的SNV特征位点的数量达到预设的第一阈值,确定剩余的SNV特征位点为所述第一突变基因。
4.根据权利要求3所述的一种基于基因突变的肺癌免疫疗效预测方法,其特征在于,所述根据所述决策树确定所述SNV特征位点的特征重要性这一步骤,其具体包括:
获取所述第一SNV特征集的袋外数据,根据所述袋外数据计算得到所述决策树的第一袋外数据误差;
对所述袋外数据的SNV特征位点加入噪声干扰得到干扰袋外数据,并根据所述干扰袋外数据计算得到所述决策树的第二袋外数据误差;
根据所述第一袋外数据误差和所述第二袋外数据误差确定所述SNV特征位点的特征重要性。
5.根据权利要求1所述的一种基于基因突变的肺癌免疫疗效预测方法,其特征在于,所述根据所述第一特征基因组构建训练样本集这一步骤,其具体包括:
根据所述非小细胞肺癌患者的肺癌免疫疗效观测结果对所述第一特征基因组进行标注,得到肺癌免疫疗效标签;
根据所述第一特征基因组和对应的肺癌免疫疗效标签构建训练样本集。
6.根据权利要求5所述的一种基于基因突变的肺癌免疫疗效预测方法,其特征在于,所述将所述训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型这一步骤,其具体包括:
将所述训练样本集输入到预先构建的卷积神经网络,得到第一预测结果;
根据所述第一预测结果和所述肺癌免疫疗效标签确定所述卷积神经网络的损失值;
根据所述损失值通过反向传播算法更新所述卷积神经网络的参数;
当损失值达到预设的第二阈值或迭代次数达到预设的第三阈值,停止训练,得到训练好的肺癌免疫疗效预测模型。
7.根据权利要求1至6中任一项所述的一种基于基因突变的肺癌免疫疗效预测方法,其特征在于,所述获取待预测肺癌患者的第二SNV数据,并根据所述第二SNV数据确定第二特征基因组这一步骤,其具体包括:
从待预测肺癌患者的样本测序数据中获取第二SNV特征集;
通过随机森林算法对所述第二SNV特征集进行特征选择得到多个第二突变基因,并根据所述第二突变基因生成第二特征基因组。
8.一种基于基因突变的肺癌免疫疗效预测系统,其特征在于,包括:
SNV特征集获取模块,用于从非小细胞肺癌患者的样本测序数据中获取第一SNV特征集;
特征基因组生成模块,用于通过随机森林算法对所述第一SNV特征集进行特征选择得到多个第一突变基因,并根据所述第一突变基因生成第一特征基因组;
模型训练模块,用于根据所述第一特征基因组构建训练样本集,并将所述训练样本集输入到预先构建的卷积神经网络,得到训练好的肺癌免疫疗效预测模型;
模型预测模块,用于获取待预测肺癌患者的第二SNV数据,并根据所述第二SNV数据确定第二特征基因组,进而将所述第二特征基因组输入到所述肺癌免疫疗效预测模型,得到所述待预测肺癌患者的肺癌免疫疗效预测结果。
9.一种基于基因突变的肺癌免疫疗效预测装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1至7中任一项所述的一种基于基因突变的肺癌免疫疗效预测方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1至7中任一项所述的一种基于基因突变的肺癌免疫疗效预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211144192.4A CN115620894B (zh) | 2022-09-20 | 2022-09-20 | 基于基因突变的肺癌免疫疗效预测系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211144192.4A CN115620894B (zh) | 2022-09-20 | 2022-09-20 | 基于基因突变的肺癌免疫疗效预测系统、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115620894A true CN115620894A (zh) | 2023-01-17 |
CN115620894B CN115620894B (zh) | 2023-05-02 |
Family
ID=84858345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211144192.4A Active CN115620894B (zh) | 2022-09-20 | 2022-09-20 | 基于基因突变的肺癌免疫疗效预测系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620894B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180247410A1 (en) * | 2017-02-27 | 2018-08-30 | Case Western Reserve University | Predicting immunotherapy response in non-small cell lung cancer with serial radiomics |
US20190189242A1 (en) * | 2017-12-18 | 2019-06-20 | Personal Genome Diagnostics Inc. | Machine learning system and method for somatic mutation discovery |
CN110305965A (zh) * | 2019-08-29 | 2019-10-08 | 至本医疗科技(上海)有限公司 | 一种预测非小细胞肺癌(nsclc)患者对免疫疗法的敏感性的方法 |
WO2021071181A1 (ko) * | 2019-10-07 | 2021-04-15 | 한국과학기술원 | 면역항암제에 대한 저항성을 예측하는 방법 및 분석장치 |
WO2021107452A1 (ko) * | 2019-11-29 | 2021-06-03 | 의료법인 성광의료재단 | 면역 세포 치료제에 대한 치료 반응성 예측용 바이오마커 |
CN113160887A (zh) * | 2021-04-23 | 2021-07-23 | 哈尔滨工业大学 | 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法 |
CN113362888A (zh) * | 2021-06-02 | 2021-09-07 | 齐鲁工业大学 | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 |
CN113851185A (zh) * | 2021-11-29 | 2021-12-28 | 求臻医学科技(北京)有限公司 | 一种用于非小细胞肺癌患者免疫治疗的预后评估方法 |
WO2022121973A1 (zh) * | 2020-12-09 | 2022-06-16 | 江苏恒瑞医药股份有限公司 | 基于机器学习的肽免疫原性预测、鉴别系统及方法 |
US20220207726A1 (en) * | 2019-09-30 | 2022-06-30 | Institute Of Computing Technology, Chinese Academy Of Sciences | Tmb classification method and system and tmb analysis device based on pathological image |
CN114694745A (zh) * | 2022-03-24 | 2022-07-01 | 至本医疗科技(上海)有限公司 | 预测免疫疗效的方法、装置、计算机设备和存储介质 |
CN114999653A (zh) * | 2022-06-17 | 2022-09-02 | 中国医学科学院肿瘤医院 | 一种非小细胞肺癌免疫治疗疗效的预测模型的训练方法以及预测装置 |
-
2022
- 2022-09-20 CN CN202211144192.4A patent/CN115620894B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180247410A1 (en) * | 2017-02-27 | 2018-08-30 | Case Western Reserve University | Predicting immunotherapy response in non-small cell lung cancer with serial radiomics |
US20190189242A1 (en) * | 2017-12-18 | 2019-06-20 | Personal Genome Diagnostics Inc. | Machine learning system and method for somatic mutation discovery |
CN110305965A (zh) * | 2019-08-29 | 2019-10-08 | 至本医疗科技(上海)有限公司 | 一种预测非小细胞肺癌(nsclc)患者对免疫疗法的敏感性的方法 |
US20220207726A1 (en) * | 2019-09-30 | 2022-06-30 | Institute Of Computing Technology, Chinese Academy Of Sciences | Tmb classification method and system and tmb analysis device based on pathological image |
WO2021071181A1 (ko) * | 2019-10-07 | 2021-04-15 | 한국과학기술원 | 면역항암제에 대한 저항성을 예측하는 방법 및 분석장치 |
WO2021107452A1 (ko) * | 2019-11-29 | 2021-06-03 | 의료법인 성광의료재단 | 면역 세포 치료제에 대한 치료 반응성 예측용 바이오마커 |
WO2022121973A1 (zh) * | 2020-12-09 | 2022-06-16 | 江苏恒瑞医药股份有限公司 | 基于机器学习的肽免疫原性预测、鉴别系统及方法 |
CN113160887A (zh) * | 2021-04-23 | 2021-07-23 | 哈尔滨工业大学 | 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法 |
CN113362888A (zh) * | 2021-06-02 | 2021-09-07 | 齐鲁工业大学 | 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 |
CN113851185A (zh) * | 2021-11-29 | 2021-12-28 | 求臻医学科技(北京)有限公司 | 一种用于非小细胞肺癌患者免疫治疗的预后评估方法 |
CN114694745A (zh) * | 2022-03-24 | 2022-07-01 | 至本医疗科技(上海)有限公司 | 预测免疫疗效的方法、装置、计算机设备和存储介质 |
CN114999653A (zh) * | 2022-06-17 | 2022-09-02 | 中国医学科学院肿瘤医院 | 一种非小细胞肺癌免疫治疗疗效的预测模型的训练方法以及预测装置 |
Non-Patent Citations (3)
Title |
---|
KANGGEUN LEE等: "CPEM: Accurate cancer type classification based on somatic alterations using an ensemble of a random forest and a deep neural network" * |
李嘉威;李夏东;陈雪琴;马胜林;: "CT影像组学在肺癌诊治中应用的研究进展和问题探索", 中国肺癌杂志 * |
陈捷;姜达;黄芳;: "非小细胞肺癌中驱动基因状态与免疫治疗相关性的研究进展", 中国肺癌杂志 * |
Also Published As
Publication number | Publication date |
---|---|
CN115620894B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7411619B2 (ja) | 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム | |
Sayed et al. | A nested genetic algorithm for feature selection in high-dimensional cancer microarray datasets | |
JP2021526259A (ja) | 訓練された統計モデルを使用するマルチモーダル予測のための方法および装置 | |
US11322225B2 (en) | Systems and methods for determining effects of therapies and genetic variation on polyadenylation site selection | |
JP7041614B6 (ja) | 生体データにおけるパターン認識のマルチレベルアーキテクチャ | |
CN114373547B (zh) | 疾病患病风险的预测方法及系统 | |
CN115702457A (zh) | 使用自动编码器确定癌症状态的系统和方法 | |
Dlamini et al. | AI and precision oncology in clinical cancer genomics: From prevention to targeted cancer therapies-an outcomes based patient care | |
KR102273311B1 (ko) | 장내 미생물을 이용한 질병의 예측방법 및 시스템 | |
CN116959585B (zh) | 基于深度学习的全基因组预测方法 | |
Bustamam et al. | Lung cancer classification based on support vector machine-recursive feature elimination and artificial bee colony | |
CN112635080A (zh) | 基于深度学习的药物预测方法和设备 | |
CN115620894B (zh) | 基于基因突变的肺癌免疫疗效预测系统、装置及存储介质 | |
JP2004355174A (ja) | データ解析方法及びそのシステム | |
El Rahman et al. | Machine learning model for breast cancer prediction | |
CN114694745A (zh) | 预测免疫疗效的方法、装置、计算机设备和存储介质 | |
Sinha et al. | A study of feature selection and extraction algorithms for cancer subtype prediction | |
Vert | Artificial intelligence and cancer genomics | |
Ren et al. | OCRFinder: a noise-tolerance machine learning method for accurately estimating open chromatin regions | |
Pradhan | Evolutionary computational algorithm by blending of PPCA and EP-Enhanced supervised classifier for microarray gene expression data | |
Reddy et al. | Designing Cell-Type-Specific Promoter Sequences Using Conservative Model-Based Optimization | |
Khan et al. | Genetic Algorithm for Biomarker Search Problem and Class Prediction | |
CN114242158B (zh) | ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备 | |
Bichindaritz et al. | Case based reasoning with Bayesian model averaging: an improved method for survival analysis on microarray data | |
CN108280327B (zh) | 一种提高样本库样本多样性的出库方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |