CN113035274A - 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 - Google Patents

一种基于nmf的肿瘤基因点突变的特征图谱提取算法 Download PDF

Info

Publication number
CN113035274A
CN113035274A CN202110438203.9A CN202110438203A CN113035274A CN 113035274 A CN113035274 A CN 113035274A CN 202110438203 A CN202110438203 A CN 202110438203A CN 113035274 A CN113035274 A CN 113035274A
Authority
CN
China
Prior art keywords
nmf
mutation
matrix
extraction algorithm
point mutation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110438203.9A
Other languages
English (en)
Inventor
李振彰
罗文�
陆海威
钟祺楠
翁剑波
黄亮雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202110438203.9A priority Critical patent/CN113035274A/zh
Publication of CN113035274A publication Critical patent/CN113035274A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于NMF的肿瘤基因点突变的特征图谱提取算法,涉及肿瘤基因特征提取技术领域。该基于NMF的肿瘤基因点突变的特征图谱提取算法,包括以下步骤:S1、突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作。该基于NMF的肿瘤基因点突变的特征图谱提取算法,实现突变集合的过滤,并结合了Oncotator注释软件,输出注释结果,方便使用,实现信息矩阵的快速获取,节约前期数据处理时间,提高效率,实现基于NMF算法的最优化算法模型与算法实现,以及完成代码软件装置设计,实现点突变,插入缺失特征图谱可视化实现装置,实现频谱特征分析软件装置,包括signature组成的贝叶斯网络装置,肿瘤预后分类器装置,非编码显著突变区域与signature的关联装置。

Description

一种基于NMF的肿瘤基因点突变的特征图谱提取算法
技术领域
本发明涉及肿瘤基因特征提取技术领域,具体为一种基于NMF的肿瘤基因点突变的特征图谱提取算法。
背景技术
癌症是基因疾病,是由生物体细胞突变引起的。随着基因检测技术例如下一代测序(NGS)的发展,人们发现这些突变是由特定突变特征的组合引起的,这些突变特征通常具有已知的基础过程,它可以更好地提供癌症机制信息,也有助于癌症的预防和治疗。人类的基因组只有一个,大约有5-10万个基因,约30亿个碱基对(包含A、T、C、G四种碱基),共组成24个染色体,分别是22个体染色体、X染色体与Y染色体,每个染色体由四种不同的核苷酸组成——A/C/G/T。四个核苷酸实际上形成两对A-T、C-G,当A位于一个链上时,T位于另一个链上,当G位于一个链上时,C必须在同一位置组成。当癌症基因组发生突变时,其中一个核苷酸被另一个核苷酸交换,例如,T被A取代。除了替换(如插入和删除)之外,还有其他突变。突变可能是有缺陷的DNA修复或不同的突变过程的结果,如突变暴露(辐射,吸烟),DNA的酶修饰等。对于癌症基因组,体细胞突变是其重要的特征之一,这些突变集中,只有少数是肿瘤的"驱动者"赋予选择性克隆生长优势,但只能提供有限的药物靶点或者预后评估,而其余的是"乘客",在肿瘤的进化过程中没有得到积极的选择。所以实际上大多数突变都是无害的。按照突变的类型可以分为六大类,分别为C>A(表示有C变异成A),C>G,C>T,T>A,T>C和T>G,按照三碱基核算则可以分为96种不同的突变类型。突变性特征是由不同的突变过程引起的突变类型的某种组合,然后除以该签名引起的突变总数,以便最终考虑每种突变类型的比例贡献。研究表明,某些突变类型在特定癌症中发生更为频繁。例如对肺和皮肤肿瘤中突变的肿瘤基因的分析表明,发现的突变类型与烟草致癌物和紫外光的实验结果相匹配,这主要是已知的外源性致癌物质影响着这些突变类型。值得注意的是,C:G>A:T突变在吸烟相关的肺癌中占主导地位,而C:G>T:A主要发生在dipyrimidines和CC:GG>TT:AA双核苷酸替代是常见的紫外线光相关皮肤癌的变化特征。因此,从基因组突变数据中寻找这些特征对于发现癌症的基本机制,做好预防和治疗非常重要。
目前,NMF即非负矩阵分解法是很多研究者关注的重点。NMF的基本原理是将信号矩阵分解为基本矩阵和相应的系数矩阵,根据代价函数来计算各个信号成分所对应的基本矩阵和系数矩阵,从而实现信号的分离。当下,研究工作者合理地认为在细胞中发生的生化过程通常是独立作用的,因此,可以假设基因组中的突变是细胞中所有突变过程活动的总和,其数据是所有检测样本的不同突变类型的突变计数和,即为观测到的信号矩阵Y。给定模型,Y=WX+E,其中W为系数矩阵,也就是不同签名的集合,可以理解为MutationalSignature,X为基本矩阵,也就是决定其活动的强度,代表的是每个样本在每个MutationalSignature的贡献度,E代表误差项,也可以理解为信号分解的噪音。
NMF的优点是稳定性功能,它很好地确定了正确的签名数,由其衍生出一些生物学方法,专门应用于肿瘤特征图谱的提取的,比如NMF、BayeNMF、SigProfiler以及SignatureAnalyzer等。但在大多数人类癌症类型中,DNA损伤和修复过程所印迹的突变特征受到非常有限的表征,而且这些方法存在一定的局限性,功能相对单一,且对于一些数据集的分析结果差强人意,尤其是小样本数据或者低深度数据的结果,误差比较大。
发明内容
本发明提供的发明目的在于提供一种基于NMF的肿瘤基因点突变的特征图谱提取算法,该基于NMF的肿瘤基因点突变的特征图谱提取算法,适用于大小样本数据集,稳定性高,多种评估标准结合,准确性更高,包括从轮廓系数,误差项变化趋势,误差改变梯度变化。
为了实现上述的效果,本发明提供如下技术方案:一种基于NMF的肿瘤基因点突变的特征图谱提取算法,包括以下步骤:
S1、突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个perl脚本程序接口,对MuTect软件产生的SomaticSNV/InDel进行过滤操作,过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库;
S2、数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于MAF文件自动生成信息矩阵;
S3、突变特征频谱获取:包含两个方面,其一是基于NMF的最优化特征提取算法方法,其二是频谱特征分析软件装置。
进一步的,根据S1中的操作步骤,过滤结果使用Oncotator软件进行注释,得到MAF格式结果文件,注释的文件头包含至少五列信息:样本名、染色体编号、变异的位点坐标值、参考基因组的碱基和变异后的碱基。
进一步的,根据S2中的操作步骤,所述信息矩阵包含三部分,分别为突变信息矩阵、样本列表文件和行属性名称列表。
进一步的,根据S3中的操作步骤,所述特征提取算法方法,包括以下步骤:
S301、确立分析模型:Xm×n=Pm×kSk×n+Em×n
约束:P≥0,S≥0
Figure BDA0003034030070000031
其中
Figure BDA0003034030070000032
n为样本数目,m为特征类型,
Figure BDA0003034030070000033
S302、基于NMF算法的构建方法;
S303、运行结果可视化展示方式:对基础矩阵进行归一化后,按照百分比把每个特征属性的柱状图刻画出来,采用不同的颜色进行区分;
S304、频谱特征分析软件装置构建。
进一步的,根据S302中的操作步骤,所述基于NMF算法的构建方法,包括以下步骤:
S3021、按照列处理X,采用狄利克雷分布,对每一列进行抽取该分布下的数据分布,计算每个分量当前的概率值,概率与向量分量和的乘积向上取整即为该向量分量数值,并生成新的列向量;
S3022、定义好目标函数模型,模型如下:
Figure BDA0003034030070000041
其中:P≥0,S≥0,α=17.6,β=0.001;
S3023、基于S3021和S3022,采用R统计软件中的nlm函数进行求解目标函数的最优解,解为V0x’,对于最优解V0x’中小于0的置换为R统计软件中默认的double型最小的数值;
S3024、基于S3023的结果,按照S3022拉直的规则,从新逆向构建出P0矩阵与S0矩阵,然后采用NNMF的算法步骤进行迭代优化P0与S0矩阵,迭代次数为20000次,获得最后的P0矩阵与S0矩阵;
S3025、重复S3021到S3024的步骤100次,得到100次拟合的结果空间,基于这100次拟合的结果,通过以下公式计算每个结果对应的误差:
E=||X-PS||2
S3026、根据S3025的向量拉直规则还原矩阵P与S,得到的P与S作为矩阵分解中的最优初始值;
S3027、获取迭代收敛解,将S3026得到的P和S,与信息矩阵X进行跌代计算,精度选择为10^-10次方,迭代次数上限约定为100000,计算公式如下:
Figure BDA0003034030070000051
Figure BDA0003034030070000052
γ=10^-09;
S3028、选取不同的分解梯度k,重复操作步骤S3021到S3027,针对每个k都重复进行100次试验,记录每次试验的数据结果,结果包括:k,X,P,S,E;
S3029、轮廓系数计算:将S3028所有k对应的每个特征作为一个类,通过轮廓系数公式进行k类数据的评估分析,获取轮廓指数、误差变化和误差梯度。
进一步的,根据S3025中操作步骤,选取误差最小的5次结果,采用kmeans进行聚类、聚类层数与分解k类一致,获得该结果下的各类中心作为新的初始值P与S,将矩阵P与S进行按列拉直或者按照行拉直,然后按照P拉直的向量在前,S拉直的向量在后组成新的向量X0x,重复S3022和S3023的步骤。
进一步的,在S301中的操作步骤中,所述频谱特征分析软件装置构建包含有构建signature组成的贝叶斯网络结构、构建基于signature特征的临床肿瘤预后分类器和构建基于MutSpot软件分析的非编码显著突变区域与signature的关联。
本发明提供了一种基于NMF的肿瘤基因点突变的特征图谱提取算法,具备以下有益效果:
该基于NMF的肿瘤基因点突变的特征图谱提取算法,实现突变集合的过滤,并结合了Oncotator注释软件,输出注释结果,方便使用,实现信息矩阵的快速获取,节约前期数据处理时间,提高效率,实现基于NMF算法的最优化算法模型与算法实现,以及完成代码软件装置设计,实现点突变,插入缺失特征图谱可视化实现装置,实现频谱特征分析软件装置,包括signature组成的贝叶斯网络装置,肿瘤预后分类器装置,非编码显著突变区域与signature的关联装置。
附图说明
图1为整体流程图;
图2为数据信息矩阵展示图;
图3a-图3c为轮廓系数计算评估分析图;
图4a-图4f为运行结果可视化展示图。
具体实施方式
参照图1-4f:本发明提供一种技术方案:一种基于NMF的肿瘤基因点突变的特征图谱提取算法,包括以下步骤:
步骤一:突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个perl脚本程序接口,对MuTect软件产生的SomaticSNV/InDel进行过滤操作,过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库;过滤结果使用Oncotator软件进行注释,得到MAF格式结果文件,释的文件头应该包含至少五列信息:样本名,染色体编号,变异的位点坐标值,参考基因组的碱基,变异后的碱基;
步骤二:数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于MAF文件自动生成信息矩阵,信息矩阵包含三部分:a)突变信息矩阵,其中行代表属性,比如以6种碱基突变类型为中心,各取5’和3’各一个碱基形成多种组合,该组合有96种类型,以这96种突变类型为基础,确定肿瘤基因组的突变特征信息矩阵,矩阵的列代表每一个样本;b)样本列表文件,与a)中的列一致;c)行属性名称列表,与a)中的行一致。其过程展示图如附图2所示。
步骤三:突变特征频谱获取:该部分主要包含两个方面,其一是基于NMF的最优化特征提取算法方法,其二是频谱特征分析软件装置。
关于特征提取算法方法,具体技术方案如下:
1)、确立分析模型:
Xm×n=Pm×kSk×n+Em×n
约束:P≥0,S≥0
Figure BDA0003034030070000071
其中
Figure BDA0003034030070000072
n为样本数目,m为特征类型,
Figure BDA0003034030070000073
2)、基于NMF算法的最优化算法的构建:
第一步:按照列处理X,处理规则如下:采用狄利克雷分布,对每一列进行抽取该分布下的数据分布,计算每个分量当前的概率值,该概率与向量分量和的乘积向上取整即为该向量分量数值,如此这样生成新的列向量,所有列向量组合一起重新生成新的信息矩阵V0,归一化处理信息矩阵V0的列,形成新的信息矩阵V,随机选取矩阵P0与S0,并且要求P0与S0均是非负定矩阵,然后拉直(按列或按行)P0与S0,接着按照P0拉直的向量在前,S0拉直的向量在后组成向量V0x;
第二步:定义好目标函数模型,模型如下:
Figure BDA0003034030070000074
其中:P≥0,S≥0,α=17.6,β=0.001
第三步:基于第一步第二步,采用R统计软件中的nlm函数进行求解目标函数的最优解,解为V0x’,对于最优解V0x’中小于0的置换为R统计软件中默认的double型最小的数值;
第四步:基于第三步的结果,按照第二步拉直的规则,从新逆向构建出P0矩阵与S0矩阵,然后采用NNMF的算法步骤进行迭代优化P0与S0矩阵,迭代次数为20000次,获得最后的P0矩阵与S0矩阵;
第五步:重复第一到第四的步骤100次,得到100次拟合的结果空间,基于这100次拟合的结果,通过以下公式计算每个结果对应的误差:
E=||X-PS||2
然后选取误差最小的5次结果,采用kmeans进行聚类,聚类层数与分解k类一致,获得该结果下的各类中心作为新的初始值P与S;
将矩阵P与S进行按列拉直或者按照行拉直,然后按照P拉直的向量在前,S拉直的向量在后组成新的向量X0x,重复第二步,第三步;
第六步:根据第五步的向量拉直规则还原矩阵P与S,这步得到的P与S作为矩阵分解中的最优初始值;
第七步:获取迭代收敛解,将第六步得到的P,S,与信息矩阵X进行跌代计算,精度选择为10^-10次方,迭代次数上限约定为100000,计算公式如下:
Figure BDA0003034030070000081
Figure BDA0003034030070000082
γ=10^-09
第八步:选取不同的分解梯度k(范围应该固定在1到30),重复操作步骤第一到第七步,针对每个k都重复进行100次试验,记录每次试验的数据结果,结果包括:k,X,P,S,E;
第九步:轮廓系数计算:将第八步所有k对应的每个特征作为一个类,通过轮廓系数公式进行这k类数据的评估分析,获取轮廓指数,误差变化,误差梯度,如附图3a-3c所示:
特征k选取规则如下:
要求轮廓系数下降幅度小,不存在突然下降的趋势;
要求误差变化越来越小或者趋势平缓,不存在上升趋势;
要求误差变化梯度变化变小,并慢慢趋向于0。
基于以上规则,图上选取6个特征最为合理。
3)、运行结果可视化展示方式:将基础矩阵进行归一化后,按照百分比把每个特征属性的柱状图刻画出来,采用不同的颜色进行区分,如附图4a-4f所示:
4)、频谱特征分析软件装置构建,包含构建signature组成的贝叶斯网络结构,研究各种临床特征与signature之间网络之间的关系,构建基于signature特征的临床肿瘤预后分类器,用于预测治疗疗效评估,构建基于MutSpot软件分析的非编码显著突变区域与signature的关联,研究潜在的癌症发生发展机制。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,包括以下步骤:
S1、突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个perl脚本程序接口,对MuTect软件产生的Somatic SNV/InDel进行过滤操作,过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库;
S2、数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于MAF文件自动生成信息矩阵;
S3、突变特征频谱获取:包含两个方面,其一是基于NMF的最优化特征提取算法方法,其二是频谱特征分析软件装置。
2.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S1中的操作步骤,过滤结果使用Oncotator软件进行注释,得到MAF格式结果文件,注释的文件头包含至少五列信息:样本名、染色体编号、变异的位点坐标值、参考基因组的碱基和变异后的碱基。
3.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S2中的操作步骤,所述信息矩阵包含三部分,分别为突变信息矩阵、样本列表文件和行属性名称列表。
4.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S3中的操作步骤,所述特征提取算法方法,包括以下步骤:
S301、确立分析模型:Xm×n=Pm×kSk×n+Em×n
约束:P≥0,S≥0
Figure FDA0003034030060000011
其中
Figure FDA0003034030060000021
n为样本数目,m为特征类型,
Figure FDA0003034030060000022
S302、基于NMF算法的构建方法;
S303、运行结果可视化展示方式:对基础矩阵进行归一化后,按照百分比把每个特征属性的柱状图刻画出来,采用不同的颜色进行区分;
S304、频谱特征分析软件装置构建。
5.根据权利要求4所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S302中的操作步骤,所述基于NMF算法的构建方法,包括以下步骤:
S3021、按照列处理X,采用狄利克雷分布,对每一列进行抽取该分布下的数据分布,计算每个分量当前的概率值,概率与向量分量和的乘积向上取整即为该向量分量数值,并生成新的列向量;
S3022、定义好目标函数模型,模型如下:
Figure FDA0003034030060000023
其中:P≥0,S≥0,α=17.6,β=0.001;
S3023、基于S3021和S3022,采用R统计软件中的nlm函数进行求解目标函数的最优解,解为V0x’,对于最优解V0x’中小于0的置换为R统计软件中默认的double型最小的数值;
S3024、基于S3023的结果,按照S3022拉直的规则,从新逆向构建出P0矩阵与S0矩阵,然后采用NNMF的算法步骤进行迭代优化P0与S0矩阵,迭代次数为20000次,获得最后的P0矩阵与S0矩阵;
S3025、重复S3021到S3024的步骤100次,得到100次拟合的结果空间,基于这100次拟合的结果,通过以下公式计算每个结果对应的误差:
E=||X-PS||2
S3026、根据S3025的向量拉直规则还原矩阵P与S,得到的P与S作为矩阵分解中的最优初始值;
S3027、获取迭代收敛解,将S3026得到的P和S,与信息矩阵X进行跌代计算,精度选择为10^-10次方,迭代次数上限约定为100000,计算公式如下:
Figure FDA0003034030060000031
Figure FDA0003034030060000032
γ=10^-09;
S3028、选取不同的分解梯度k,重复操作步骤S3021到S3027,针对每个k都重复进行100次试验,记录每次试验的数据结果,结果包括:k,X,P,S,E;
S3029、轮廓系数计算:将S3028所有k对应的每个特征作为一个类,通过轮廓系数公式进行k类数据的评估分析,获取轮廓指数、误差变化和误差梯度。
6.根据权利要求5所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S3025中操作步骤,选取误差最小的5次结果,采用kmeans进行聚类、聚类层数与分解k类一致,获得该结果下的各类中心作为新的初始值P与S,将矩阵P与S进行按列拉直或者按照行拉直,然后按照P拉直的向量在前,S拉直的向量在后组成新的向量X0x,重复S3022和S3023的步骤。
7.根据权利要求4所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,在S301中的操作步骤中,所述频谱特征分析软件装置构建包含有构建signature组成的贝叶斯网络结构、构建基于signature特征的临床肿瘤预后分类器和构建基于MutSpot软件分析的非编码显著突变区域与signature的关联。
CN202110438203.9A 2021-04-22 2021-04-22 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 Pending CN113035274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110438203.9A CN113035274A (zh) 2021-04-22 2021-04-22 一种基于nmf的肿瘤基因点突变的特征图谱提取算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110438203.9A CN113035274A (zh) 2021-04-22 2021-04-22 一种基于nmf的肿瘤基因点突变的特征图谱提取算法

Publications (1)

Publication Number Publication Date
CN113035274A true CN113035274A (zh) 2021-06-25

Family

ID=76457516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110438203.9A Pending CN113035274A (zh) 2021-04-22 2021-04-22 一种基于nmf的肿瘤基因点突变的特征图谱提取算法

Country Status (1)

Country Link
CN (1) CN113035274A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153392A (zh) * 2023-08-25 2023-12-01 云基智能生物科技(广州)有限公司 一种胃癌预后预测的标志物、评估模型及其构建方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014098479A1 (ko) * 2012-12-18 2014-06-26 연세대학교 산학협력단 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
US20180203974A1 (en) * 2016-11-07 2018-07-19 Grail, Inc. Methods of identifying somatic mutational signatures for early cancer detection
CN108664769A (zh) * 2017-03-31 2018-10-16 中国科学院上海生命科学研究院 基于癌症基因组和非特异性基因标签的大规模药物重定位方法
CN110097921A (zh) * 2019-05-30 2019-08-06 复旦大学 基于影像组学的胶质瘤内基因异质性可视化定量方法和系统
CN110349622A (zh) * 2019-07-09 2019-10-18 南京邮电大学 基于决策树与线性回归模型预测癌症合成致死基因对的方法
CN111223525A (zh) * 2020-01-07 2020-06-02 广州基迪奥生物科技有限公司 一种肿瘤外显子测序数据分析方法
US20200184643A1 (en) * 2018-12-11 2020-06-11 New York University Classification and mutation prediction from histopathology images using deep learning
CN111785322A (zh) * 2019-12-30 2020-10-16 杭州慕谷基因科技有限公司 一种结肠腺癌基因组变异与肿瘤进化关系的研究方法
CN112233796A (zh) * 2020-10-15 2021-01-15 杭州慕谷科技有限公司 一种在早期肝癌中免疫增强的分子亚型的研究方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014098479A1 (ko) * 2012-12-18 2014-06-26 연세대학교 산학협력단 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법
US20180203974A1 (en) * 2016-11-07 2018-07-19 Grail, Inc. Methods of identifying somatic mutational signatures for early cancer detection
CN109906276A (zh) * 2016-11-07 2019-06-18 格里尔公司 用于检测早期癌症中体细胞突变特征的识别方法
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
CN108664769A (zh) * 2017-03-31 2018-10-16 中国科学院上海生命科学研究院 基于癌症基因组和非特异性基因标签的大规模药物重定位方法
US20200184643A1 (en) * 2018-12-11 2020-06-11 New York University Classification and mutation prediction from histopathology images using deep learning
CN110097921A (zh) * 2019-05-30 2019-08-06 复旦大学 基于影像组学的胶质瘤内基因异质性可视化定量方法和系统
CN110349622A (zh) * 2019-07-09 2019-10-18 南京邮电大学 基于决策树与线性回归模型预测癌症合成致死基因对的方法
CN111785322A (zh) * 2019-12-30 2020-10-16 杭州慕谷基因科技有限公司 一种结肠腺癌基因组变异与肿瘤进化关系的研究方法
CN111223525A (zh) * 2020-01-07 2020-06-02 广州基迪奥生物科技有限公司 一种肿瘤外显子测序数据分析方法
CN112233796A (zh) * 2020-10-15 2021-01-15 杭州慕谷科技有限公司 一种在早期肝癌中免疫增强的分子亚型的研究方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴昊;: "基于突变基因网络的致癌驱动通路检测算法", 计算机学报, no. 06, pages 214 - 228 *
郭鹏;介评;: "Cell:原发性前列腺癌的分子亚型分类―基于癌症基因组图谱研究", 现代泌尿外科杂志, no. 12, pages 79 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153392A (zh) * 2023-08-25 2023-12-01 云基智能生物科技(广州)有限公司 一种胃癌预后预测的标志物、评估模型及其构建方法

Similar Documents

Publication Publication Date Title
Cooke et al. A unified haplotype-based method for accurate and comprehensive variant calling
Garvin et al. Interactive analysis and assessment of single-cell copy-number variations
Marth et al. The allele frequency spectrum in genome-wide human variation data reveals signals of differential demographic history in three large world populations
Li Toward better understanding of artifacts in variant calling from high-coverage samples
Schrider Background selection does not mimic the patterns of genetic diversity produced by selective sweeps
US20140067813A1 (en) Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism
US20220130488A1 (en) Methods for detecting copy-number variations in next-generation sequencing
Zhao et al. Haplotype assembly from aligned weighted SNP fragments
CN112509636B (zh) 一种肿瘤基因组拷贝数变异特征模式识别方法及其应用
CN110010195A (zh) 一种探测单核苷酸突变的方法及装置
Singh et al. MitoScape: A big-data, machine-learning platform for obtaining mitochondrial DNA from next-generation sequencing data
Bisschop et al. Sweeps in time: leveraging the joint distribution of branch lengths
CN113035274A (zh) 一种基于nmf的肿瘤基因点突变的特征图谱提取算法
Wu et al. Identifying mutated driver pathways in cancer by integrating multi-omics data
US12020777B1 (en) Cancer diagnostic tool using cancer genomic signatures to determine cancer type
CN113035275B (zh) 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法
Gao et al. A phylogenetic approach to inferring the order in which mutations arise during cancer progression
CN115588465B (zh) 一种性状相关基因的筛选方法及其系统
EP3971902B1 (en) Base mutation detection method and apparatus based on sequencing data, and storage medium
Jin et al. A simple 2D non-parametric resampling statistical approach to assess confidence in species identification in DNA barcoding—an alternative to Likelihood and Bayesian approaches
CN115472219B (zh) 一种阿尔兹海默病数据的处理方法及其系统
EP4138003A1 (en) Neural network for variant calling
Huang et al. Genome-wide selection inference at short tandem repeats
Jaksik et al. Accuracy of somatic variant detection workflows for whole genome sequencing experiments
CN109817340B (zh) 疾病风险分布信息确定方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210625

WD01 Invention patent application deemed withdrawn after publication