CN113035274A - 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 - Google Patents
一种基于nmf的肿瘤基因点突变的特征图谱提取算法 Download PDFInfo
- Publication number
- CN113035274A CN113035274A CN202110438203.9A CN202110438203A CN113035274A CN 113035274 A CN113035274 A CN 113035274A CN 202110438203 A CN202110438203 A CN 202110438203A CN 113035274 A CN113035274 A CN 113035274A
- Authority
- CN
- China
- Prior art keywords
- nmf
- mutation
- matrix
- extraction algorithm
- point mutation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 67
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 title claims abstract description 27
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 23
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims abstract description 10
- 238000004393 prognosis Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000012800 visualization Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 8
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 210000000349 chromosome Anatomy 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000000392 somatic effect Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 2
- 201000011510 cancer Diseases 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000869 mutational effect Effects 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 208000000453 Skin Neoplasms Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 231100000357 carcinogen Toxicity 0.000 description 2
- 239000003183 carcinogenic agent Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 230000005778 DNA damage Effects 0.000 description 1
- 231100000277 DNA damage Toxicity 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010029098 Neoplasm skin Diseases 0.000 description 1
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 210000001766 X chromosome Anatomy 0.000 description 1
- 210000002593 Y chromosome Anatomy 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003851 biochemical process Effects 0.000 description 1
- 238000010170 biological method Methods 0.000 description 1
- 230000009668 clonal growth Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 230000009144 enzymatic modification Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 208000037841 lung tumor Diseases 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于NMF的肿瘤基因点突变的特征图谱提取算法,涉及肿瘤基因特征提取技术领域。该基于NMF的肿瘤基因点突变的特征图谱提取算法,包括以下步骤:S1、突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作。该基于NMF的肿瘤基因点突变的特征图谱提取算法,实现突变集合的过滤,并结合了Oncotator注释软件,输出注释结果,方便使用,实现信息矩阵的快速获取,节约前期数据处理时间,提高效率,实现基于NMF算法的最优化算法模型与算法实现,以及完成代码软件装置设计,实现点突变,插入缺失特征图谱可视化实现装置,实现频谱特征分析软件装置,包括signature组成的贝叶斯网络装置,肿瘤预后分类器装置,非编码显著突变区域与signature的关联装置。
Description
技术领域
本发明涉及肿瘤基因特征提取技术领域,具体为一种基于NMF的肿瘤基因点突变的特征图谱提取算法。
背景技术
癌症是基因疾病,是由生物体细胞突变引起的。随着基因检测技术例如下一代测序(NGS)的发展,人们发现这些突变是由特定突变特征的组合引起的,这些突变特征通常具有已知的基础过程,它可以更好地提供癌症机制信息,也有助于癌症的预防和治疗。人类的基因组只有一个,大约有5-10万个基因,约30亿个碱基对(包含A、T、C、G四种碱基),共组成24个染色体,分别是22个体染色体、X染色体与Y染色体,每个染色体由四种不同的核苷酸组成——A/C/G/T。四个核苷酸实际上形成两对A-T、C-G,当A位于一个链上时,T位于另一个链上,当G位于一个链上时,C必须在同一位置组成。当癌症基因组发生突变时,其中一个核苷酸被另一个核苷酸交换,例如,T被A取代。除了替换(如插入和删除)之外,还有其他突变。突变可能是有缺陷的DNA修复或不同的突变过程的结果,如突变暴露(辐射,吸烟),DNA的酶修饰等。对于癌症基因组,体细胞突变是其重要的特征之一,这些突变集中,只有少数是肿瘤的"驱动者"赋予选择性克隆生长优势,但只能提供有限的药物靶点或者预后评估,而其余的是"乘客",在肿瘤的进化过程中没有得到积极的选择。所以实际上大多数突变都是无害的。按照突变的类型可以分为六大类,分别为C>A(表示有C变异成A),C>G,C>T,T>A,T>C和T>G,按照三碱基核算则可以分为96种不同的突变类型。突变性特征是由不同的突变过程引起的突变类型的某种组合,然后除以该签名引起的突变总数,以便最终考虑每种突变类型的比例贡献。研究表明,某些突变类型在特定癌症中发生更为频繁。例如对肺和皮肤肿瘤中突变的肿瘤基因的分析表明,发现的突变类型与烟草致癌物和紫外光的实验结果相匹配,这主要是已知的外源性致癌物质影响着这些突变类型。值得注意的是,C:G>A:T突变在吸烟相关的肺癌中占主导地位,而C:G>T:A主要发生在dipyrimidines和CC:GG>TT:AA双核苷酸替代是常见的紫外线光相关皮肤癌的变化特征。因此,从基因组突变数据中寻找这些特征对于发现癌症的基本机制,做好预防和治疗非常重要。
目前,NMF即非负矩阵分解法是很多研究者关注的重点。NMF的基本原理是将信号矩阵分解为基本矩阵和相应的系数矩阵,根据代价函数来计算各个信号成分所对应的基本矩阵和系数矩阵,从而实现信号的分离。当下,研究工作者合理地认为在细胞中发生的生化过程通常是独立作用的,因此,可以假设基因组中的突变是细胞中所有突变过程活动的总和,其数据是所有检测样本的不同突变类型的突变计数和,即为观测到的信号矩阵Y。给定模型,Y=WX+E,其中W为系数矩阵,也就是不同签名的集合,可以理解为MutationalSignature,X为基本矩阵,也就是决定其活动的强度,代表的是每个样本在每个MutationalSignature的贡献度,E代表误差项,也可以理解为信号分解的噪音。
NMF的优点是稳定性功能,它很好地确定了正确的签名数,由其衍生出一些生物学方法,专门应用于肿瘤特征图谱的提取的,比如NMF、BayeNMF、SigProfiler以及SignatureAnalyzer等。但在大多数人类癌症类型中,DNA损伤和修复过程所印迹的突变特征受到非常有限的表征,而且这些方法存在一定的局限性,功能相对单一,且对于一些数据集的分析结果差强人意,尤其是小样本数据或者低深度数据的结果,误差比较大。
发明内容
本发明提供的发明目的在于提供一种基于NMF的肿瘤基因点突变的特征图谱提取算法,该基于NMF的肿瘤基因点突变的特征图谱提取算法,适用于大小样本数据集,稳定性高,多种评估标准结合,准确性更高,包括从轮廓系数,误差项变化趋势,误差改变梯度变化。
为了实现上述的效果,本发明提供如下技术方案:一种基于NMF的肿瘤基因点突变的特征图谱提取算法,包括以下步骤:
S1、突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个perl脚本程序接口,对MuTect软件产生的SomaticSNV/InDel进行过滤操作,过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库;
S2、数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于MAF文件自动生成信息矩阵;
S3、突变特征频谱获取:包含两个方面,其一是基于NMF的最优化特征提取算法方法,其二是频谱特征分析软件装置。
进一步的,根据S1中的操作步骤,过滤结果使用Oncotator软件进行注释,得到MAF格式结果文件,注释的文件头包含至少五列信息:样本名、染色体编号、变异的位点坐标值、参考基因组的碱基和变异后的碱基。
进一步的,根据S2中的操作步骤,所述信息矩阵包含三部分,分别为突变信息矩阵、样本列表文件和行属性名称列表。
进一步的,根据S3中的操作步骤,所述特征提取算法方法,包括以下步骤:
S301、确立分析模型:Xm×n=Pm×kSk×n+Em×n
约束:P≥0,S≥0
S302、基于NMF算法的构建方法;
S303、运行结果可视化展示方式:对基础矩阵进行归一化后,按照百分比把每个特征属性的柱状图刻画出来,采用不同的颜色进行区分;
S304、频谱特征分析软件装置构建。
进一步的,根据S302中的操作步骤,所述基于NMF算法的构建方法,包括以下步骤:
S3021、按照列处理X,采用狄利克雷分布,对每一列进行抽取该分布下的数据分布,计算每个分量当前的概率值,概率与向量分量和的乘积向上取整即为该向量分量数值,并生成新的列向量;
S3022、定义好目标函数模型,模型如下:
其中:P≥0,S≥0,α=17.6,β=0.001;
S3023、基于S3021和S3022,采用R统计软件中的nlm函数进行求解目标函数的最优解,解为V0x’,对于最优解V0x’中小于0的置换为R统计软件中默认的double型最小的数值;
S3024、基于S3023的结果,按照S3022拉直的规则,从新逆向构建出P0矩阵与S0矩阵,然后采用NNMF的算法步骤进行迭代优化P0与S0矩阵,迭代次数为20000次,获得最后的P0矩阵与S0矩阵;
S3025、重复S3021到S3024的步骤100次,得到100次拟合的结果空间,基于这100次拟合的结果,通过以下公式计算每个结果对应的误差:
E=||X-PS||2;
S3026、根据S3025的向量拉直规则还原矩阵P与S,得到的P与S作为矩阵分解中的最优初始值;
S3027、获取迭代收敛解,将S3026得到的P和S,与信息矩阵X进行跌代计算,精度选择为10^-10次方,迭代次数上限约定为100000,计算公式如下:
γ=10^-09;
S3028、选取不同的分解梯度k,重复操作步骤S3021到S3027,针对每个k都重复进行100次试验,记录每次试验的数据结果,结果包括:k,X,P,S,E;
S3029、轮廓系数计算:将S3028所有k对应的每个特征作为一个类,通过轮廓系数公式进行k类数据的评估分析,获取轮廓指数、误差变化和误差梯度。
进一步的,根据S3025中操作步骤,选取误差最小的5次结果,采用kmeans进行聚类、聚类层数与分解k类一致,获得该结果下的各类中心作为新的初始值P与S,将矩阵P与S进行按列拉直或者按照行拉直,然后按照P拉直的向量在前,S拉直的向量在后组成新的向量X0x,重复S3022和S3023的步骤。
进一步的,在S301中的操作步骤中,所述频谱特征分析软件装置构建包含有构建signature组成的贝叶斯网络结构、构建基于signature特征的临床肿瘤预后分类器和构建基于MutSpot软件分析的非编码显著突变区域与signature的关联。
本发明提供了一种基于NMF的肿瘤基因点突变的特征图谱提取算法,具备以下有益效果:
该基于NMF的肿瘤基因点突变的特征图谱提取算法,实现突变集合的过滤,并结合了Oncotator注释软件,输出注释结果,方便使用,实现信息矩阵的快速获取,节约前期数据处理时间,提高效率,实现基于NMF算法的最优化算法模型与算法实现,以及完成代码软件装置设计,实现点突变,插入缺失特征图谱可视化实现装置,实现频谱特征分析软件装置,包括signature组成的贝叶斯网络装置,肿瘤预后分类器装置,非编码显著突变区域与signature的关联装置。
附图说明
图1为整体流程图;
图2为数据信息矩阵展示图;
图3a-图3c为轮廓系数计算评估分析图;
图4a-图4f为运行结果可视化展示图。
具体实施方式
参照图1-4f:本发明提供一种技术方案:一种基于NMF的肿瘤基因点突变的特征图谱提取算法,包括以下步骤:
步骤一:突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个perl脚本程序接口,对MuTect软件产生的SomaticSNV/InDel进行过滤操作,过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库;过滤结果使用Oncotator软件进行注释,得到MAF格式结果文件,释的文件头应该包含至少五列信息:样本名,染色体编号,变异的位点坐标值,参考基因组的碱基,变异后的碱基;
步骤二:数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于MAF文件自动生成信息矩阵,信息矩阵包含三部分:a)突变信息矩阵,其中行代表属性,比如以6种碱基突变类型为中心,各取5’和3’各一个碱基形成多种组合,该组合有96种类型,以这96种突变类型为基础,确定肿瘤基因组的突变特征信息矩阵,矩阵的列代表每一个样本;b)样本列表文件,与a)中的列一致;c)行属性名称列表,与a)中的行一致。其过程展示图如附图2所示。
步骤三:突变特征频谱获取:该部分主要包含两个方面,其一是基于NMF的最优化特征提取算法方法,其二是频谱特征分析软件装置。
关于特征提取算法方法,具体技术方案如下:
1)、确立分析模型:
Xm×n=Pm×kSk×n+Em×n
约束:P≥0,S≥0
2)、基于NMF算法的最优化算法的构建:
第一步:按照列处理X,处理规则如下:采用狄利克雷分布,对每一列进行抽取该分布下的数据分布,计算每个分量当前的概率值,该概率与向量分量和的乘积向上取整即为该向量分量数值,如此这样生成新的列向量,所有列向量组合一起重新生成新的信息矩阵V0,归一化处理信息矩阵V0的列,形成新的信息矩阵V,随机选取矩阵P0与S0,并且要求P0与S0均是非负定矩阵,然后拉直(按列或按行)P0与S0,接着按照P0拉直的向量在前,S0拉直的向量在后组成向量V0x;
第二步:定义好目标函数模型,模型如下:
其中:P≥0,S≥0,α=17.6,β=0.001
第三步:基于第一步第二步,采用R统计软件中的nlm函数进行求解目标函数的最优解,解为V0x’,对于最优解V0x’中小于0的置换为R统计软件中默认的double型最小的数值;
第四步:基于第三步的结果,按照第二步拉直的规则,从新逆向构建出P0矩阵与S0矩阵,然后采用NNMF的算法步骤进行迭代优化P0与S0矩阵,迭代次数为20000次,获得最后的P0矩阵与S0矩阵;
第五步:重复第一到第四的步骤100次,得到100次拟合的结果空间,基于这100次拟合的结果,通过以下公式计算每个结果对应的误差:
E=||X-PS||2
然后选取误差最小的5次结果,采用kmeans进行聚类,聚类层数与分解k类一致,获得该结果下的各类中心作为新的初始值P与S;
将矩阵P与S进行按列拉直或者按照行拉直,然后按照P拉直的向量在前,S拉直的向量在后组成新的向量X0x,重复第二步,第三步;
第六步:根据第五步的向量拉直规则还原矩阵P与S,这步得到的P与S作为矩阵分解中的最优初始值;
第七步:获取迭代收敛解,将第六步得到的P,S,与信息矩阵X进行跌代计算,精度选择为10^-10次方,迭代次数上限约定为100000,计算公式如下:
γ=10^-09
第八步:选取不同的分解梯度k(范围应该固定在1到30),重复操作步骤第一到第七步,针对每个k都重复进行100次试验,记录每次试验的数据结果,结果包括:k,X,P,S,E;
第九步:轮廓系数计算:将第八步所有k对应的每个特征作为一个类,通过轮廓系数公式进行这k类数据的评估分析,获取轮廓指数,误差变化,误差梯度,如附图3a-3c所示:
特征k选取规则如下:
要求轮廓系数下降幅度小,不存在突然下降的趋势;
要求误差变化越来越小或者趋势平缓,不存在上升趋势;
要求误差变化梯度变化变小,并慢慢趋向于0。
基于以上规则,图上选取6个特征最为合理。
3)、运行结果可视化展示方式:将基础矩阵进行归一化后,按照百分比把每个特征属性的柱状图刻画出来,采用不同的颜色进行区分,如附图4a-4f所示:
4)、频谱特征分析软件装置构建,包含构建signature组成的贝叶斯网络结构,研究各种临床特征与signature之间网络之间的关系,构建基于signature特征的临床肿瘤预后分类器,用于预测治疗疗效评估,构建基于MutSpot软件分析的非编码显著突变区域与signature的关联,研究潜在的癌症发生发展机制。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,包括以下步骤:
S1、突变数据集MAF文件获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个perl脚本程序接口,对MuTect软件产生的Somatic SNV/InDel进行过滤操作,过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库;
S2、数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于MAF文件自动生成信息矩阵;
S3、突变特征频谱获取:包含两个方面,其一是基于NMF的最优化特征提取算法方法,其二是频谱特征分析软件装置。
2.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S1中的操作步骤,过滤结果使用Oncotator软件进行注释,得到MAF格式结果文件,注释的文件头包含至少五列信息:样本名、染色体编号、变异的位点坐标值、参考基因组的碱基和变异后的碱基。
3.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S2中的操作步骤,所述信息矩阵包含三部分,分别为突变信息矩阵、样本列表文件和行属性名称列表。
5.根据权利要求4所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S302中的操作步骤,所述基于NMF算法的构建方法,包括以下步骤:
S3021、按照列处理X,采用狄利克雷分布,对每一列进行抽取该分布下的数据分布,计算每个分量当前的概率值,概率与向量分量和的乘积向上取整即为该向量分量数值,并生成新的列向量;
S3022、定义好目标函数模型,模型如下:
其中:P≥0,S≥0,α=17.6,β=0.001;
S3023、基于S3021和S3022,采用R统计软件中的nlm函数进行求解目标函数的最优解,解为V0x’,对于最优解V0x’中小于0的置换为R统计软件中默认的double型最小的数值;
S3024、基于S3023的结果,按照S3022拉直的规则,从新逆向构建出P0矩阵与S0矩阵,然后采用NNMF的算法步骤进行迭代优化P0与S0矩阵,迭代次数为20000次,获得最后的P0矩阵与S0矩阵;
S3025、重复S3021到S3024的步骤100次,得到100次拟合的结果空间,基于这100次拟合的结果,通过以下公式计算每个结果对应的误差:
E=||X-PS||2;
S3026、根据S3025的向量拉直规则还原矩阵P与S,得到的P与S作为矩阵分解中的最优初始值;
S3027、获取迭代收敛解,将S3026得到的P和S,与信息矩阵X进行跌代计算,精度选择为10^-10次方,迭代次数上限约定为100000,计算公式如下:
γ=10^-09;
S3028、选取不同的分解梯度k,重复操作步骤S3021到S3027,针对每个k都重复进行100次试验,记录每次试验的数据结果,结果包括:k,X,P,S,E;
S3029、轮廓系数计算:将S3028所有k对应的每个特征作为一个类,通过轮廓系数公式进行k类数据的评估分析,获取轮廓指数、误差变化和误差梯度。
6.根据权利要求5所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,根据S3025中操作步骤,选取误差最小的5次结果,采用kmeans进行聚类、聚类层数与分解k类一致,获得该结果下的各类中心作为新的初始值P与S,将矩阵P与S进行按列拉直或者按照行拉直,然后按照P拉直的向量在前,S拉直的向量在后组成新的向量X0x,重复S3022和S3023的步骤。
7.根据权利要求4所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法,其特征在于,在S301中的操作步骤中,所述频谱特征分析软件装置构建包含有构建signature组成的贝叶斯网络结构、构建基于signature特征的临床肿瘤预后分类器和构建基于MutSpot软件分析的非编码显著突变区域与signature的关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110438203.9A CN113035274A (zh) | 2021-04-22 | 2021-04-22 | 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110438203.9A CN113035274A (zh) | 2021-04-22 | 2021-04-22 | 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113035274A true CN113035274A (zh) | 2021-06-25 |
Family
ID=76457516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110438203.9A Pending CN113035274A (zh) | 2021-04-22 | 2021-04-22 | 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035274A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153392A (zh) * | 2023-08-25 | 2023-12-01 | 云基智能生物科技(广州)有限公司 | 一种胃癌预后预测的标志物、评估模型及其构建方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014098479A1 (ko) * | 2012-12-18 | 2014-06-26 | 연세대학교 산학협력단 | 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법 |
CN106980763A (zh) * | 2017-03-30 | 2017-07-25 | 大连理工大学 | 一种基于基因突变频率的癌症驱动基因的筛选方法 |
US20180203974A1 (en) * | 2016-11-07 | 2018-07-19 | Grail, Inc. | Methods of identifying somatic mutational signatures for early cancer detection |
CN108664769A (zh) * | 2017-03-31 | 2018-10-16 | 中国科学院上海生命科学研究院 | 基于癌症基因组和非特异性基因标签的大规模药物重定位方法 |
CN110097921A (zh) * | 2019-05-30 | 2019-08-06 | 复旦大学 | 基于影像组学的胶质瘤内基因异质性可视化定量方法和系统 |
CN110349622A (zh) * | 2019-07-09 | 2019-10-18 | 南京邮电大学 | 基于决策树与线性回归模型预测癌症合成致死基因对的方法 |
CN111223525A (zh) * | 2020-01-07 | 2020-06-02 | 广州基迪奥生物科技有限公司 | 一种肿瘤外显子测序数据分析方法 |
US20200184643A1 (en) * | 2018-12-11 | 2020-06-11 | New York University | Classification and mutation prediction from histopathology images using deep learning |
CN111785322A (zh) * | 2019-12-30 | 2020-10-16 | 杭州慕谷基因科技有限公司 | 一种结肠腺癌基因组变异与肿瘤进化关系的研究方法 |
CN112233796A (zh) * | 2020-10-15 | 2021-01-15 | 杭州慕谷科技有限公司 | 一种在早期肝癌中免疫增强的分子亚型的研究方法 |
-
2021
- 2021-04-22 CN CN202110438203.9A patent/CN113035274A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014098479A1 (ko) * | 2012-12-18 | 2014-06-26 | 연세대학교 산학협력단 | 지놈 변이 또는 후생학적 변이를 분석하기 위한 컴퓨터 실행 방법 |
US20180203974A1 (en) * | 2016-11-07 | 2018-07-19 | Grail, Inc. | Methods of identifying somatic mutational signatures for early cancer detection |
CN109906276A (zh) * | 2016-11-07 | 2019-06-18 | 格里尔公司 | 用于检测早期癌症中体细胞突变特征的识别方法 |
CN106980763A (zh) * | 2017-03-30 | 2017-07-25 | 大连理工大学 | 一种基于基因突变频率的癌症驱动基因的筛选方法 |
CN108664769A (zh) * | 2017-03-31 | 2018-10-16 | 中国科学院上海生命科学研究院 | 基于癌症基因组和非特异性基因标签的大规模药物重定位方法 |
US20200184643A1 (en) * | 2018-12-11 | 2020-06-11 | New York University | Classification and mutation prediction from histopathology images using deep learning |
CN110097921A (zh) * | 2019-05-30 | 2019-08-06 | 复旦大学 | 基于影像组学的胶质瘤内基因异质性可视化定量方法和系统 |
CN110349622A (zh) * | 2019-07-09 | 2019-10-18 | 南京邮电大学 | 基于决策树与线性回归模型预测癌症合成致死基因对的方法 |
CN111785322A (zh) * | 2019-12-30 | 2020-10-16 | 杭州慕谷基因科技有限公司 | 一种结肠腺癌基因组变异与肿瘤进化关系的研究方法 |
CN111223525A (zh) * | 2020-01-07 | 2020-06-02 | 广州基迪奥生物科技有限公司 | 一种肿瘤外显子测序数据分析方法 |
CN112233796A (zh) * | 2020-10-15 | 2021-01-15 | 杭州慕谷科技有限公司 | 一种在早期肝癌中免疫增强的分子亚型的研究方法 |
Non-Patent Citations (2)
Title |
---|
吴昊;: "基于突变基因网络的致癌驱动通路检测算法", 计算机学报, no. 06, pages 214 - 228 * |
郭鹏;介评;: "Cell:原发性前列腺癌的分子亚型分类―基于癌症基因组图谱研究", 现代泌尿外科杂志, no. 12, pages 79 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153392A (zh) * | 2023-08-25 | 2023-12-01 | 云基智能生物科技(广州)有限公司 | 一种胃癌预后预测的标志物、评估模型及其构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cooke et al. | A unified haplotype-based method for accurate and comprehensive variant calling | |
Garvin et al. | Interactive analysis and assessment of single-cell copy-number variations | |
Marth et al. | The allele frequency spectrum in genome-wide human variation data reveals signals of differential demographic history in three large world populations | |
Li | Toward better understanding of artifacts in variant calling from high-coverage samples | |
Schrider | Background selection does not mimic the patterns of genetic diversity produced by selective sweeps | |
US20140067813A1 (en) | Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism | |
US20220130488A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
Zhao et al. | Haplotype assembly from aligned weighted SNP fragments | |
CN112509636B (zh) | 一种肿瘤基因组拷贝数变异特征模式识别方法及其应用 | |
CN110010195A (zh) | 一种探测单核苷酸突变的方法及装置 | |
Singh et al. | MitoScape: A big-data, machine-learning platform for obtaining mitochondrial DNA from next-generation sequencing data | |
Bisschop et al. | Sweeps in time: leveraging the joint distribution of branch lengths | |
CN113035274A (zh) | 一种基于nmf的肿瘤基因点突变的特征图谱提取算法 | |
Wu et al. | Identifying mutated driver pathways in cancer by integrating multi-omics data | |
US12020777B1 (en) | Cancer diagnostic tool using cancer genomic signatures to determine cancer type | |
CN113035275B (zh) | 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法 | |
Gao et al. | A phylogenetic approach to inferring the order in which mutations arise during cancer progression | |
CN115588465B (zh) | 一种性状相关基因的筛选方法及其系统 | |
EP3971902B1 (en) | Base mutation detection method and apparatus based on sequencing data, and storage medium | |
Jin et al. | A simple 2D non-parametric resampling statistical approach to assess confidence in species identification in DNA barcoding—an alternative to Likelihood and Bayesian approaches | |
CN115472219B (zh) | 一种阿尔兹海默病数据的处理方法及其系统 | |
EP4138003A1 (en) | Neural network for variant calling | |
Huang et al. | Genome-wide selection inference at short tandem repeats | |
Jaksik et al. | Accuracy of somatic variant detection workflows for whole genome sequencing experiments | |
CN109817340B (zh) | 疾病风险分布信息确定方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210625 |
|
WD01 | Invention patent application deemed withdrawn after publication |