CN114155910B - 一种癌症体细胞突变功能影响预测方法 - Google Patents

一种癌症体细胞突变功能影响预测方法 Download PDF

Info

Publication number
CN114155910B
CN114155910B CN202111338125.1A CN202111338125A CN114155910B CN 114155910 B CN114155910 B CN 114155910B CN 202111338125 A CN202111338125 A CN 202111338125A CN 114155910 B CN114155910 B CN 114155910B
Authority
CN
China
Prior art keywords
mutation
protein
groups
dimensional
random
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111338125.1A
Other languages
English (en)
Other versions
CN114155910A (zh
Inventor
李�杰
王东
王亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202111338125.1A priority Critical patent/CN114155910B/zh
Publication of CN114155910A publication Critical patent/CN114155910A/zh
Application granted granted Critical
Publication of CN114155910B publication Critical patent/CN114155910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是一种癌症体细胞突变功能影响预测方法。本发明构建综合的突变特征集,将不同种群的突变频率整合在一起;基于多物种的突变位点进行保守性估计,估计这些突变为有害突变的概率;基于基因产物互作的突变网络特征构建,完成突变网络特征构建;构建基于多重采样和层次结构的深度随机森林预测模型,对癌症体细胞突变做出功能预测。

Description

一种癌症体细胞突变功能影响预测方法
技术领域
本发明涉及癌症体细胞突变功能影响预测技术领域,是一种癌症体细胞突变功能影响预测方法。
背景技术
用于癌症研究中的体细胞突变对分子、组织或个体的发展是否产生有害影响。随着下一代测序等高通量生物芯片技术的发展,产生了大量的基因突变相关的实验数据,如何有效准确的对这些突变数据进行功能注释,是一项十分有意义且富有挑战的研究工作,通过对体细胞突变进行功能注释。现有的癌症体细胞突变功能预测算法多基于突变的相关生物特征(例如,序列保守性),这些算法对于体细胞突变的功能影响预测效果一般。
发明内容
本发明针对现有技术的缺点,本发明提供了一种癌症体细胞突变功能影响预测方法,本发明提供了以下技术方案:
一种癌症体细胞突变功能影响预测方法,包括以下步骤:
步骤1:将不同种群的突变频率整合在一起,完成突变频率特征构建;
步骤2:基于多物种的突变位点进行保守性估计,完成突变保守性特征构建;
步骤3:基于基因产物互作的突变网络特征构建,完成突变网络特征构建;
步骤4:构建基于多重采样和层次结构的深度随机森林预测模型,对癌症体细胞突变做出功能预测。
优选地,所述步骤1具体为:
突变在不同人群中有不同的发生频率,当一些突变在人群中有较高的频率倾向于无害突变,当某些突变出现的频率较低,则倾向于有害突变;将不同种群的突变频率整合在一起,作为一类预测特征来预测突变的功能影响。
优选地,所述步骤2具体为:
步骤2.1:基于现有的遗传信息知识库,收集不同物种的DNA或蛋白质序列;
步骤2.2:选取多个物种的DNA或蛋白质序列与突变序列进行比对,找到与突变序列相似性最高的多条序列数据,得到多序列比对结果;
步骤2.3:结合所获得的多序列比对结果,采用估计突变位点的保守性分数。
优选地,所述步骤2.3中采用似然估计或隐马尔可夫算法估计突变位点的保守性分数。
优选地,所述步骤3具体为:
步骤3.1:基于基因产物互作的突变网络特征构建,基于现有的蛋白质互作数据库,构建蛋白质互作邻接矩阵;
步骤3.2:基于蛋白质互作邻接矩阵,通过随机游走算法,以不同的蛋白质为起点,生成一系列的蛋白质随机游走序列;
步骤3.3:选取蛋白质G1及邻接蛋白质节点G2,G3,G4和G5的蛋白质随机游走序列,分别作为Skip-Gram模型的输入和输出,对模型进行训练;
步骤3.4:对所有的蛋白质分子按照步骤3.3进行选取,完成Skip-Gram模型的训练;
步骤3.5:抽取Skip-Gram模型的权重矩阵,完成突变:网络特征构建。
优选地,所述步骤4具体为:
步骤4.1:基于不同类型特征进行多重采样,3类共75个特征用来作为多重采样的输入数据,通过多重采样,获得多组低维特征向量,获得3组特征向量;
步骤4.2:建立级联森林,将获得的3组特征向量做连接,并作为级联森林的输入特征,级联森林由多层随机森林组构成,每一层级联森林包含2组随机森林和2组极度随机森林,每一层级联森林的输入数据为上一层的预测结果与初始特征的连接向量,输出为4组2维的预测分数向量,级联森林的最后一层输出结果的平均值为最终的预测分数。
例如,根据突变等位基因频率特征,对17维的输入特征做17次随机采样,每次采样特征数的2/3,获得17组特征实例;
针对每一组特征实例分别使用随机森林与极度随机森林做训练和预测,每次获得一组2维的预测分数向量,最终将所有的2维向量做连接获得68维特征向量;
针对三类特征均执行类似操作,最终获得3组68维,32维和200维特征向量。
本发明具有以下有益效果:
精准医学在癌症治疗中的应用是癌症研究的热点之一。肿瘤精准医学的关键是准确地寻找功能上有害的突变。但是现在有的计算方法在癌症体细胞突变上功能影响预测能力不足,无法提供较为精准的功能预测。在这里,本发明更加精准地预测突变功能影响。在实验数据集上的实验结果表明,本发明相较于现有的方法,可以更加有效地预测突变功能影响,其有效性主要体现在:a)预测分数的AUC(ROC曲线线下面积)显著地高于其他方法;b)分类结果的精准率,召回率,F1分数及准确率均显著地高于其他方法。
附图说明
图1为本发明算法模型框架;
图2为基于不同类型特征的多重采样算法模型;
图3为级联森林算法模型;
图4为15种不同方法AUC值,DVA为本发明。
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图1至图4所示,本发明为解决上述技术问题采取的具体优化技术方案是:一种癌症体细胞突变功能影响预测方法,包括以下步骤:
一种癌症体细胞突变功能影响预测方法,包括以下步骤:
步骤1:构建综合的突变特征集,将不同种群的突变频率整合在一起;
所述步骤1具体为:
突变在不同人群中有不同的发生频率,当一些突变在人群中有较高的频率倾向于无害突变,当某些突变出现的频率较低,则倾向于有害突变;将不同种群的突变频率整合在一起,作为一类预测特征来预测突变的功能影响。
步骤2:基于多物种的突变位点进行保守性估计,估计这些突变为有害突变的概率;
所述步骤2具体为:
步骤2.1:通过线性序列存储遗传信息,某通过评估突变位点的保守程度,进而估计这些突变为有害突变的概率:
步骤2.2:选取多个物种的DNA或蛋白质序列与突变序列进行比对,找到与突变序列相似性最高的多条序列数据,得到多序列比对结果;
步骤2.3:结合所获得的多序列比对结果,采用估计突变位点的保守性分数。
所述步骤2.3中采用似然估计或隐马尔可夫算法估计突变位点的保守性分数。
步骤3:基于基因产物互作的突变网络特征构建,完成突变网络特征构建;
所述步骤3具体为:
步骤3.1:基于基因产物互作的突变网络特征构建,基于现有的蛋白质互作数据库(如STRING,HumNet),构建蛋白质互作邻接矩阵;
步骤3.2:基于蛋白质互作邻接矩阵,通过随机游走算法,以不同的蛋白质为起点,生成一系列的蛋白质随机游走序列(Walk1,Walk2,…,WalkN);
步骤3.3:选取蛋白质G1及邻接蛋白质节点G2,G3,G4和G5,分别作为Skip-Gram模型的输入和输出,对模型进行训练;
步骤3.4:对所有的蛋白质分子按照步骤3.3进行选取,完成Skip-Gram模型的训练;
步骤3.5:抽取Skip-Gram模型的权重矩阵,完成突变网络特征构建。
步骤4:构建基于多重采样和层次结构的深度随机森林预测模型,对癌症体细胞突变做出功能预测。
所述步骤4具体为:
步骤4.1:基于不同类型特征进行多重采样,如图2所示,3类共75个特征(8维保守性特征,17维突变等位基因频率特征,50维PPI网络特征)用来作为多重采样的输入数据,通过多重采样,获得多组低维特征向量,获得3组特征向量;
根据突变等位基因频率特征,对17维的输入特征做17次随机采样,每次采样特征数的2/3,获得17组特征实例;
针对每一组特征实例分别使用随机森林与极度随机森林做训练和预测,每次获得一组2维的预测分数向量,最终将所有的2维向量做连接获得68维特征向量;针对三类样本均执行类似操作,最终获得3组68维,32维和200维)特征向量。
步骤4.2:建立级联森林,将获得的3组特征向量做连接,并作为级联森林的输入特征(300维),级联森林由多层随机森林组构成,每一层级联森林包含2组随机森林和2组极度随机森林,每一层级联森林的输入数据为上一层的预测结果与初始特征(300维)的连接向量,输出为4组2维的预测分数向量,级联森林的最后一层输出结果的平均值为最终的预测分数。
本发明在COSMIC数据库中5731个有害突变与VariSNP数据库中5731个无害突变进行了实验验证。
参数设定:本发明中所使用的随机森林均由100棵决策树组成,其余参数均设置为默认值。
实施步骤:
通过GERP++,phastCons和phyloP等方法去计算每个突变的序列保守性分数。
检索gnomAD数据库,找出突变在不同人群中的突变等位基因频率。
使用node2vec方法,通过图嵌入的方式将蛋白质互作网络转化为基于单一蛋白的特征矩阵。
将步骤1~3所产生的特征整合在一起作为突变的输入特征集,训练基于不同类型特征的多重采样以及级联森林,并通过十折交叉验证来评估所提出的模型的性能表现。
结果:
接收者操作特征曲线线下面积(AUC)是常用的一种评价算法性能的指标。如图4所示,本发明测得的AUC值为0.942,远高于现存的一些方法,结果表明本发明可以准确地预测突变的功能影响。
准确率(Accuracy)、精准率(Precision)、召回率(Recall)和F1分数(F1-score)也常被用来作为评价指标。本方法的准确率、精准率、召回率和F1分数分别为90.48%,91.21%,89.79%和90.39%(如表1所示),结果表明本方法的识别精度高,对于正负样本的识别均有良好的性能。
表1. 15种预测方法的性能表现
Figure BDA0003351214840000071
以上所述仅是一种癌症体细胞突变功能影响预测方法的优选实施方式,一种癌症体细胞突变功能影响预测方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。

Claims (6)

1.一种癌症体细胞突变功能影响预测方法,其特征是:包括以下步骤:
步骤1:将不同种群的突变频率整合在一起,完成突变频率特征构建;
步骤2:基于多物种的突变位点进行保守性估计,完成突变保守性特征构建;
步骤3:基于基因产物互作的突变网络特征构建,完成突变网络特征构建;
步骤4:构建基于多重采样和层次结构的深度随机森林预测模型,对癌症体细胞突变做出功能预测;
所述步骤4具体为:
步骤4.1:基于不同类型特征进行多重采样,3类共75个特征用来作为多重采样的输入数据,通过多重采样,获得多组低维特征向量,获得3组特征向量;
步骤4.2:建立级联森林,将获得的3组特征向量做连接,并作为级联森林的输入特征,级联森林由多层随机森林组构成,每一层级联森林包含2组随机森林和2组极度随机森林,每一层级联森林的输入数据为上一层的预测结果与初始特征的连接向量,输出为4组2维的预测分数向量,级联森林的最后一层输出结果的平均值为最终的预测分数。
2.根据权利要求1所述的一种癌症体细胞突变功能影响预测方法,其特征是:所述步骤1具体为:
突变在不同人群中有不同的发生频率,当一些突变在人群中有较高的频率倾向于无害突变,当某些突变出现的频率较低,则倾向于有害突变;将不同种群的突变频率整合在一起,作为一类预测特征来预测突变的功能影响。
3.根据权利要求2所述的一种癌症体细胞突变功能影响预测方法,其特征是:所述步骤2具体为:
步骤2.1:基于现有的遗传信息知识库,收集不同物种的DNA或蛋白质序列;
步骤2.2:选取多个物种的DNA或蛋白质序列与突变序列进行比对,找到与突变序列相似性最高的多条序列数据,得到多序列比对结果;
步骤2.3:结合所获得的多序列比对结果,采用估计突变位点的保守性分数。
4.根据权利要求3所述的一种癌症体细胞突变功能影响预测方法,其特征是:所述步骤2.3中采用似然估计或隐马尔可夫算法估计突变位点的保守性分数。
5.根据权利要求4所述的一种癌症体细胞突变功能影响预测方法,其特征是:所述步骤3具体为:
步骤3.1:基于基因产物互作的突变网络特征构建,基于现有的蛋白质互作数据库,构建蛋白质互作邻接矩阵;
步骤3.2:基于蛋白质互作邻接矩阵,通过随机游走算法,以不同的蛋白质为起点,生成一系列的蛋白质随机游走序列;
步骤3.3:选取蛋白质G1及邻接蛋白质节点G2、G3、G4、G5的蛋白质随机游走序列,分别作为Skip-Gram模型的输入和输出,对模型进行训练;
步骤3.4:对所有的蛋白质分子按照步骤3.3进行选取,完成Skip-Gram模型的训练;
步骤3.5:抽取Skip-Gram模型的权重矩阵,完成突变网络特征构建。
6.根据权利要求1所述的一种癌症体细胞突变功能影响预测方法,其特征是:根据突变等位基因频率特征,对17维的输入特征做17次随机采样,每次采样特征数的2/3,获得17组特征实例;
针对每一组特征实例分别使用随机森林与极度随机森林做训练和预测,每次获得一组2维的预测分数向量,最终将所有的2维向量做连接获得68维特征向量;
针对三类特征均执行操作,最终获得3组特征向量,维度分别为68维、32维和200维。
CN202111338125.1A 2021-11-12 2021-11-12 一种癌症体细胞突变功能影响预测方法 Active CN114155910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111338125.1A CN114155910B (zh) 2021-11-12 2021-11-12 一种癌症体细胞突变功能影响预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111338125.1A CN114155910B (zh) 2021-11-12 2021-11-12 一种癌症体细胞突变功能影响预测方法

Publications (2)

Publication Number Publication Date
CN114155910A CN114155910A (zh) 2022-03-08
CN114155910B true CN114155910B (zh) 2022-07-29

Family

ID=80460106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111338125.1A Active CN114155910B (zh) 2021-11-12 2021-11-12 一种癌症体细胞突变功能影响预测方法

Country Status (1)

Country Link
CN (1) CN114155910B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778075A (zh) * 2016-12-29 2017-05-31 安诺优达基因科技(北京)有限公司 一种用于检测血液病相关体细胞突变的装置
CN110870020A (zh) * 2017-10-16 2020-03-06 因美纳有限公司 利用卷积神经网络(cnns)进行异常剪接检测
CN111128300A (zh) * 2019-12-26 2020-05-08 上海市精神卫生中心(上海市心理咨询培训中心) 基于突变信息的蛋白相互作用影响判断方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN108763872B (zh) * 2018-04-25 2019-12-06 华中科技大学 一种分析预测癌症突变影响lir模体功能的方法
DE102018125324A1 (de) * 2018-10-12 2020-04-16 Universität Rostock Verfahren zur Vorhersage einer Antwort auf die Therapie von Krankheiten
CN110415766A (zh) * 2019-06-05 2019-11-05 复旦大学 一种预测突变对rna二级结构影响程度的方法和相关设备
CN111369534A (zh) * 2020-03-05 2020-07-03 上海市肺科医院(上海市职业病防治院) 一种预测肺癌病理图像中基因突变的辅助系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778075A (zh) * 2016-12-29 2017-05-31 安诺优达基因科技(北京)有限公司 一种用于检测血液病相关体细胞突变的装置
CN110870020A (zh) * 2017-10-16 2020-03-06 因美纳有限公司 利用卷积神经网络(cnns)进行异常剪接检测
CN111128300A (zh) * 2019-12-26 2020-05-08 上海市精神卫生中心(上海市心理咨询培训中心) 基于突变信息的蛋白相互作用影响判断方法

Also Published As

Publication number Publication date
CN114155910A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
Tadesse et al. Bayesian variable selection in clustering high-dimensional data
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
CN111161793A (zh) 基于stacking集成的RNA中N6-甲基腺苷修饰位点预测方法
US20020042681A1 (en) Characterization of phenotypes by gene expression patterns and classification of samples based thereon
CN112466404B (zh) 一种宏基因组重叠群无监督聚类方法及系统
CN106446597B (zh) 多物种特征选择及鉴定未知基因的方法
US11398297B2 (en) Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences
CN112750502A (zh) 一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN109801681B (zh) 一种基于改进的模糊聚类算法的snp选择方法
CN114155910B (zh) 一种癌症体细胞突变功能影响预测方法
US20040153307A1 (en) Discriminative feature selection for data sequences
CN111951889B (zh) 一种rna序列中m5c位点的识别预测方法及系统
CN114694746A (zh) 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法
CN111599412B (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
CN115295079A (zh) 基于元图学习的长链非编码rna亚细胞定位预测方法
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法
Bhat et al. OTU clustering: A window to analyse uncultured microbial world
Giurcărneanu et al. Fast iterative gene clustering based on information theoretic criteria for selecting the cluster structure
Gustafsson et al. Clustering genomic signatures A new distance measure for variable length Markov chains
CN112885409B (zh) 一种基于特征选择的结直肠癌蛋白标志物选择系统
KR100504039B1 (ko) ncRNA 서열의 컴퓨터적 동정 방법
Alam et al. An Efficient Metaheuristic Approach for Finding Motifs from DNA Sequences
Sahoo et al. Protein complex prediction based on dense sub-graph merging
Deb et al. Unsupervised Learning of the Sequences of Adulthood Transition Trajectories

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant