CN113035275A - 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法 - Google Patents

结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法 Download PDF

Info

Publication number
CN113035275A
CN113035275A CN202110438217.0A CN202110438217A CN113035275A CN 113035275 A CN113035275 A CN 113035275A CN 202110438217 A CN202110438217 A CN 202110438217A CN 113035275 A CN113035275 A CN 113035275A
Authority
CN
China
Prior art keywords
mutation
steps
contour coefficient
algorithm
combining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110438217.0A
Other languages
English (en)
Other versions
CN113035275B (zh
Inventor
李振彰
罗文�
钟祺楠
翁剑波
黄亮雄
陆海威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202110438217.0A priority Critical patent/CN113035275B/zh
Publication of CN113035275A publication Critical patent/CN113035275A/zh
Application granted granted Critical
Publication of CN113035275B publication Critical patent/CN113035275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Analytical Chemistry (AREA)
  • Algebra (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,涉及肿瘤基因特征提取技术领域。该结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,包括以下步骤:S1、数据集获取:突变数据集突变类型包含Somatic SNV和Somatic INDEL,对Somatic SNV和Somatic INDEL进行整体统计使用MuTect软件。该结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,实现注释文件的输入模式,方便使用,节约前期数据处理时间,提高效率,突变频谱3D可视化展示,让研究者可以从空间视觉上直观的看到每个类型的突变情况,增强类型的比较效果展示,创新性结合轮廓系数,进行构建了RJMCMCNMF的模型与算法实现,以及完成代码软件装置设计,实现特征图谱与基因关联获取的软件装置。

Description

结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取 方法
技术领域
本发明涉及肿瘤基因特征提取技术领域,具体为结合轮廓系数和RJMCMC 算法的肿瘤基因点突变的特征提取方法。
背景技术
癌症是基因疾病,是由生物体细胞突变引起的。随着基因检测技术例如下一代测序(NGS)的发展,人们发现这些突变是由特定突变特征的组合引起的,这些突变特征通常具有已知的基础过程,它可以更好地提供癌症机制信息,也有助于癌症的预防和治疗。人类基因组是由染色体组成,每个染色体由四种不同的核苷酸组成——A/C/G/T。四个核苷酸实际上形成两对A-T、C-G,当A位于一个链上时,T位于另一个链上,当G位于一个链上时,C必须在同一位置组成。当癌症基因组发生突变时,其中一个核苷酸被另一个核苷酸交换,例如,T被A取代。除了替换(如插入和删除)之外,还有其他突变。突变可能是有缺陷的DNA修复或不同的突变过程的结果,如突变暴露(辐射,吸烟),DNA的酶修饰等。实际上大多数突变都是无害的。按照突变的类型可以分为六大类,分别为C>A(表示有C变异成A),C>G,C>T,T>A, T>C和T>G,按照三碱基核算则可以分为96种不同的突变类型。突变性特征是由不同的突变过程引起的突变类型的某种组合,然后除以该签名引起的突变总数,以便最终考虑每种突变类型的比例贡献。研究表明,某些突变类型在特定癌症中发生更为频繁。例如对肺和皮肤肿瘤中突变的肿瘤基因的分析表明,发现的突变类型与烟草致癌物和紫外光的实验结果相匹配,这主要是已知的外源性致癌物质影响着这些突变类型。值得注意的是,C:G>A:T突变在吸烟相关的肺癌中占主导地位,而C:G>T:A主要发生在dipyrimidines 和CC:GG>TT:AA双核苷酸替代是常见的紫外线光相关皮肤癌的变化特征。因此,从基因组突变数据中寻找这些特征对于发现癌症的基本机制,做好预防和治疗非常重要。
目前,NMF即非负矩阵分解法是很多研究者关注的重点。NMF的基本原理是将信号矩阵分解为基本矩阵和相应的系数矩阵,根据代价函数来计算各个信号成分所对应的基本矩阵和系数矩阵,从而实现信号的分离。当下,研究工作者合理地认为在细胞中发生的生化过程通常是独立作用的,因此,可以假设基因组中的突变是细胞中所有突变过程活动的总和,其数据是所有检测样本的不同突变类型的突变计数和,即为观测到的信号矩阵Y。给定模型, Y=WX,其中W为系数矩阵,也就是不同签名的集合,可以理解为MutationalSignature,X为基本矩阵,也就是决定其活动的强度,代表的是每个样本在每个MutationalSignature的贡献度。
NMF的优点是稳定性功能,它很好地确定了正确的签名数,由其衍生出一些生物学方法,专门应用于肿瘤特征图谱的提取的,比如NMF、BayeNMF、 SigProfiler以及SignatureAnalyzer等。但在大多数人类癌症类型中,DNA 损伤和修复过程所印迹的突变特征受到非常有限的表征,而且这些方法存在一定的局限性,功能相对单一,且对于一些数据集的分析结果差强人意,尤其是小样本数据或者低深度数据的结果,误差比较大。
发明内容
本发明提供的发明目的在于提供结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,该提供结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法具有更全面的分析内容,适用于大小样本数据集,稳定性高,操作方便,包括从基因突变数据注释结果(MAF或VCF格式,参考基因组可以是GRCH37或GRCH38)生成信号矩阵和突变集合的三维可视化图,基于轮廓系数与RJMCMC方法的图谱特征提取,和基因与突变特征图谱的关联研究功能。
为了实现上述的效果,本发明提供如下技术方案:结合轮廓系数和RJMCMC 算法的肿瘤基因点突变的特征提取方法,包括以下步骤:
S1、数据集获取:突变数据集突变类型包含Somatic SNV和Somatic INDEL,对Somatic SNV和Somatic INDEL进行整体统计使用MuTect软件,使用MuTect 软件来寻找Somatic SNV和Somatic INDEL位点,对Somatic SNV和Somatic INDEL进行注释使用ANNOVAR或者Oncotator软件,利用ANNOVAR或者 Oncotator软件将所检测到SNP以及InDel基因组变异与外部数据库进行注释分析,确定与人类疾病高度相关变异的基因组位置、变异频率、蛋白有害性、基因型杂合性以及所在的功能通路信息;
S2、数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于数据集获取中的文件,选取匹配的参考基因组自动生成信息矩阵;
S3、突变频谱3D可视化展示:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于数据信息矩阵获取中获取到的信息矩阵文件,生成该数据集合的突变频谱可视化3D lego图;
S4、突变特征频谱获取:主要包含两个方面,其一是特征提取算法方法,其二是频谱分析软件装置;
S5、特征图谱与基因关联获取:随着特征图谱的分解出来,根据数据集中注释的基因信息实现基因与特征图谱的关联,其实现的途径是确立每个基因非沉默突变对应到某个样本;
S6、特征图谱亚型聚类与预后关联获取:基于系数矩阵信息,获取每个样本对signature的贡献度,基于这些贡献度,可以使用无监督聚类方法对样本进行分类,得到不同的亚型,然后不同亚型与临床信息关联,做预后生存分析,可以找到与预后相关的图谱特征或者与之关联的预后因子。
进一步的,根据S1中的操作步骤,获取基于参考基因组GRCH37或者GRCH38的注释结果VCF或MAF格式的文件,注释的文件头应该包含至少五列信息:样本名,染色体编号,变异的位点坐标值,参考基因组的碱基和变异后的碱基。
进一步的,根据S4中的操作步骤,所述特征提取算法方法,包括以下步骤:
S401、确立分析模型:
Xm×n=Pm×kSk×n+Em×n
约束:P≥0,S≥0
其中
Figure BDA0003034032770000041
n为样本数目,m为特征类型,
Figure BDA0003034032770000042
S402、基于NMF算法的特征解空间的构建:Ck={P,S},表示分类为k的空间集;
S403、可逆跳转蒙特卡罗采样算法模型构建:对于mutational signature 分解来讲,其最后得到的类别里边也是96个特征比例图,设最后分解的k个 signature就是分层,对于每个signature来讲,其特征是固定的,且每个type对应到signature的概率分配是不一样的,但其分配和为1,对于每个样本来讲,其分配到每个signature的贡献度之和为1,对单个样本而言,设 96个特征为:y={y1,...,y96}
其中yt为混合数目为k的多元正态混合分布模型f(yt)中抽取的一组随机样本观测值,则包含未知参数Θ的混合模型为:
Figure BDA0003034032770000043
由此可得似然函数模型为:
Figure BDA0003034032770000044
该模型的先验分布为:
Figure BDA0003034032770000056
Figure BDA0003034032770000055
Figure BDA0003034032770000051
i∈[1,n],t∈[1,m],j∈[1,k]
其中超参数为:
Figure BDA0003034032770000054
S404、特征相似性计算方法:
Figure BDA0003034032770000052
S405、轮廓系数计算:将所有k对应的每个特征作为一个类,通过轮廓系数公式进行这k类数据的评估分析,获取轮廓指数;
S406、运行结果可视化展示方式:将基础矩阵进行归一化后,按照百分比把每个特征属性的柱状图刻画出来,采用不同的颜色进行区分。
进一步的,S4021、随机选取矩阵P0与S0,并且要求P0与S0均是非负定矩阵,归一化处理信息矩阵V0的列,按照V0矩阵的每一分量概率重新生成新的信息矩阵V;
S4022、定义好目标函数模型,模型如下:
Figure BDA0003034032770000053
S4023、获取最优初始解,将矩阵P0与S0进行按列拉直或者按照行拉直,然后按照P0拉直的向量在前,S0拉直的向量在后组成新的向量,该向量作为第二步模型的初始值输入,然后利用R统计软件中的nlm函数进行求最优解;
S4024、处理第三步的最优解,将小于0的分量替换为R统计软件中默认的double型最小的数值,然后根据S4023步骤中的向量拉直规则还原矩阵P 与S,得到的P与S作为矩阵分解中的最优初始值;
S4025、获取迭代收敛解,将S4024步骤中得到的P和S,还有S4021步骤中得到的V进行跌代计算,精度选择为10^-10次方,迭代次数上限约定为100000,计算公式如下:
Figure BDA0003034032770000061
Figure BDA0003034032770000062
S4026、选取不同的分解梯度k,重复操作步骤S4021到S4025,针对每个k都重复进行100次试验,记录每次试验的数据结果,结果包括:k,V,P, S,E;
S4027、所有S4026步骤中组成的解空间就是特征提取的解空间。
进一步的,根据S403中的操作步骤,所述模型的Gibbs抽样约定为如下模型:
Figure BDA0003034032770000063
其中
Figure BDA0003034032770000064
Figure BDA0003034032770000065
Figure BDA0003034032770000066
Figure BDA0003034032770000067
其中:
Figure BDA0003034032770000068
Figure BDA0003034032770000069
Figure BDA00030340327700000610
其中
Figure BDA00030340327700000611
Figure BDA00030340327700000612
Figure BDA00030340327700000613
Figure BDA00030340327700000614
其中:
Figure BDA00030340327700000615
Figure BDA00030340327700000616
Figure BDA0003034032770000071
其中:
Figure BDA0003034032770000072
Figure BDA0003034032770000073
进一步的,根据I)-III),所述抽样实现包括以下步骤:
S4031、使用Gibbs抽样,从
Figure BDA0003034032770000074
分布中抽取sji
S4032、使用Gibbs抽样,从
Figure BDA0003034032770000075
分布中抽取ptj
S4033、使用Gibbs抽样,从Gamma(αtt)分布中抽取
Figure BDA0003034032770000076
S4034、更新k,对于k的更新接受规则如下:
设RJMCMCNMF的分解过程,分解维度k的变化看做是状态从Ck跳跃到Ck′的过程,则设其跳跃的接受概率为:
Figure BDA0003034032770000077
其中
A(k)=lnp(k,Θk|X,θ)∝lnp(X|k,θ)+lnp(P,S,E|k,θ)+lnp(k)
Figure BDA0003034032770000078
Figure BDA0003034032770000079
进一步的,在S4034中的操作步骤中,所述RJMCMCNMF实现包括步骤如下:
1)、设定初始值k0;
2)、计算收敛的初始S0,P0;
3)、通过公式抽样P,S,E;
4)、使用生长消亡方法,u~U(0,1),如果u≤bk,则进行生长步骤,如果 bk<u≤bk+dk,则进行消亡步骤;
5)、重复以上步骤至设定的迭代步骤(step=10000,其中前1000次为燃烧期。
进一步的,在4)中的操作步骤中,所述生长步骤包括以下步骤:
4011)、k=k0+1;
4012)、执行2),收敛则继续以下步骤;
4013)、从Ck中抽取qk,即执行3);
4014)、计算α(k0,k);
4015)、计算特征之间的相似性;
4016)、u~U(0,1);
4017)、如果u≤α(k0,k),且两两相似性均小于0.3,则接受k,否则不接受。
进一步的,在4)中的操作步骤中,所述消亡步骤包括以下步骤:
4021)、k=k0-1;
4022)、执行2),收敛则继续以下步骤;
4023)、从Ck中抽取qk,即执行3);
4024)、计算α(k0,k);
4025)、计算特征之间的相似性;
4026)、u~U(0,1);
4027)、如果u≤α(k0,k),且两两相似性均小于0.3,则接受k,否则不接受。
本发明提供了结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,具备以下有益效果:
该结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,实现注释文件的输入模式,方便使用,节约前期数据处理时间,提高效率,突变频谱3D可视化展示,让研究者可以从空间视觉上直观的看到每个类型的突变情况,增强类型的比较效果展示,创新性结合轮廓系数,进行构建了RJMCMCNMF 的模型与算法实现,以及完成代码软件装置设计,实现特征图谱与基因关联获取的软件装置,实现特征图谱亚型聚类与预后关联获取的软件装置。
附图说明
图1为整体流程图;
图2为突变频谱3D可视化展示图;
图3为运行结果可视化展示图。
具体实施方式
本发明提供一种技术方案:结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,包括以下步骤:
步骤一:数据集获取:突变数据集突变类型包含Somatic SNV和Somatic INDEL,对Somatic SNV/InDel进行整体统计使用MuTect软件,使用MuTect 软件来寻找Somatic SNV和InDel位点;对Somatic SNV/InDel进行注释使用ANNOVAR或者Oncotator软件,利用ANNOVAR/Oncotator软件将所检测到 SNP以及InDel等基因组变异与外部数据库进行注释分析,以确定与人类疾病高度相关变异的基因组位置、变异频率、蛋白有害性、基因型杂合性以及所在的功能通路等信息,获取基于参考基因组GRCH37或者GRCH38的注释结果VCF或MAF格式的文件,注释的文件头应该包含至少五列信息:样本名,染色体编号,变异的位点坐标值,参考基因组的碱基,变异后的碱基。
步骤二:数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,步骤一)中的文件,选取匹配的参考基因组就可以自动生成信息矩阵,信息矩阵包含三部分:a)突变信息矩阵,其中行代表属性,比如以6种碱基突变类型为中心,各取5’和3’各一个碱基形成多种组合,该组合有96种类型,以这96种突变类型为基础,确定肿瘤基因组的突变特征信息矩阵,矩阵的列代表每一个样本;b)样本列表文件,与a)中的列一致;c)行属性名称列表,与a)中的行一致。
步骤三:突变频谱3D可视化展示:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,步骤二)获取到的信息矩阵文件,生成该数据集合的突变频谱可视化3D lego图。该部分主要功能是展示该样本数据集中,突变类型在每Mp基因组发生的突变频率,主要计算公式如下:该突变类型的每Mp基因组的突变频率=该突变类型的突变数据集总数/基因组长度(Mp);空间转化勾勒函数主要采取勾股定理,根据按比例进行缩放的每Mp基因组发生的突变频率,进行空间描点,从而实现3D的方柱,代表该突变类型的每Mp基因组的突变频率,结果展示图如附图2所示。
步骤四:突变特征频谱获取:该部分主要包含两个方面,其一是特征提取算法方法,其二是频谱分析软件装置。
关于特征提取算法方法,具体技术方案如下:
确立分析模型:
Xm×n=Pm×kSk×n+Em×n
约束:P≥0,S≥0
其中
Figure BDA0003034032770000101
n为样本数目,m为特征类型,
Figure BDA0003034032770000102
基于NMF算法的特征解空间的构建:
Ck={P,S},表示分类为k的空间集;
其中解空间的定义求解如下:
第一步:随机选取矩阵P0与S0,并且要求P0与S0均是非负定矩阵,归一化处理信息矩阵V0的列,按照V0矩阵的每一分量概率重新生成新的信息矩阵V;
第二步:定义好目标函数模型,模型如下:
Figure BDA0003034032770000111
第三步:获取最优初始解,将矩阵P0与S0进行按列拉直或者按照行拉直,然后按照P0拉直的向量在前,S0拉直的向量在后组成新的向量,该向量作为第二步模型的初始值输入,然后利用R统计软件中的nlm函数进行求最优解;
第四步:适当处理第三步的最优解,将小于0的分量替换为R统计软件中默认的double型最小的数值,然后根据第三步的向量拉直规则还原矩阵P 与S,这步得到的P与S作为矩阵分解中的最优初始值;
第五步:获取迭代收敛解,将第四步得到的P,S还有第一步得到的V进行跌代计算,精度选择为10^-10次方,迭代次数上限约定为100000,计算公式如下:
Figure BDA0003034032770000112
Figure BDA0003034032770000113
第六步:选取不同的分解梯度k(范围应该固定在1到30),重复操作步骤第一到第五步,针对每个k都重复进行100次试验,记录每次试验的数据结果,结果包括:k,V,P,S,E;
第七步:所有第六步组成的解空间就是特征提取的解空间。
可逆跳转蒙特卡罗采样(RJMCMC)算法模型构建:
对于mutational signature分解来讲,其最后得到的类别里边也是96 个特征比例图,因此这里假设最后分解的k个signature就是分层。理想状态下,对于每个signature来讲,其特征是固定的,且每个type对应到 signature的概率分配是不一样的,但其分配和为1,对于每个样本来讲,其分配到每个signature的贡献度之和为1。对单个样本而言,假设96个特征为:
y={y1,...,y96}
其中yt为混合数目为k的多元正态混合分布模型f(yt)中抽取的一组随机样本观测值,则包含未知参数Θ的混合模型为:
Figure BDA0003034032770000121
由此可得似然函数模型为:
Figure BDA0003034032770000122
该模型的先验分布为:
Figure BDA0003034032770000123
Figure BDA0003034032770000124
Figure BDA0003034032770000125
i∈[1,n],t∈[1,m],j∈[1,k];
其中超参数为:
Figure BDA0003034032770000126
该模型的Gibbs抽样约定为如下模型:
Figure BDA0003034032770000127
其中
Figure BDA0003034032770000128
Figure BDA0003034032770000131
Figure BDA0003034032770000132
Figure BDA0003034032770000133
其中:
Figure BDA0003034032770000134
Figure BDA0003034032770000135
Figure BDA0003034032770000136
其中
Figure BDA0003034032770000137
Figure BDA0003034032770000138
Figure BDA0003034032770000139
Figure BDA00030340327700001310
其中:
Figure BDA00030340327700001311
Figure BDA00030340327700001312
Figure BDA00030340327700001313
其中:
Figure BDA00030340327700001314
Figure BDA00030340327700001315
以上的I,II,III的具体抽样实现步骤如下:
1)、使用Gibbs抽样,从
Figure BDA00030340327700001316
分布中抽取sji
2)、使用Gibbs抽样,从
Figure BDA00030340327700001317
分布中抽取ptj
3)、使用Gibbs抽样,从Gamma(αtt)分布中抽取
Figure BDA00030340327700001318
4)、更新k,
注意:对每一个k∈[kmin,kmax],存在一个与之匹配的参数Θk={P,S,E},那么对于同一个k值,则存在此k值的参数集Ck={Θk},那么对于所有的k,则有参数集为
Figure BDA0003034032770000141
对于以上的k的更新接受规则如下:
假设RJMCMCNMF的分解过程,分解维度k的变化看做是状态从Ck跳跃到 Ck′的过程,则设其跳跃的接受概率为:
Figure BDA0003034032770000142
其中
Figure BDA0003034032770000143
Figure BDA0003034032770000144
具体RJMCMCNMF实现步骤如下:
1)、设定初始值k0;
2)、计算收敛的初始S0,P0;
3)、通过公式抽样P,S,E;
4)、使用生长消亡方法,u~U(0,1),如果u≤bk,则进行生长步骤,如果 bk<u≤bk+dk,则进行消亡步骤;
5)、重复以上步骤至设定的迭代步骤(step=10000,其中前1000次为燃烧期。
生长步骤包括以下步骤:
a)、k=k0+1;
b)、执行2),收敛则继续以下步骤;
c)、从Ck中抽取qk,即执行3);
d)、计算α(k0,k);
e)、计算特征之间的相似性;
f)、u~U(0,1);
g)、如果u≤α(k0,k),且两两相似性均小于0.3,则接受k,否则不接受消亡步骤包括以下步骤:
a)、k=k0-1;
b)、执行2),收敛则继续以下步骤;
c)、从Ck中抽取qk,即执行3);
d)、计算α(k0,k);
e)、计算特征之间的相似性;
f)、u~U(0,1);
g)、如果u≤α(k0,k),且两两相似性均小于0.3,则接受k,否则不接受
特征相似性计算方法:
Figure BDA0003034032770000151
轮廓系数计算:将所有k对应的每个特征作为一个类,通过轮廓系数公式进行这k类数据的评估分析,获取轮廓指数;
运行结果可视化展示方式:将基础矩阵进行归一化后,按照百分比把每个特征属性的柱状图刻画出来,采用不同的颜色进行区分,如附图3所示:
步骤五:特征图谱与基因关联获取方法:这部分主要随着特征图谱的分解出来,根据数据集中注释的基因信息实现基因与特征图谱的关联,其实现的途径是确立每个基因非沉默突变对应到某个样本,该样本对各个signature 的贡献可算,选定贡献度大于20%作为阈值,定义样本出现signature特征的条件,从而统计检验(Fisher检验)基因与signature出现的可能性。结合基因的功能特征,研究基因在癌症发生发展中的作用,从而间接研究特征图谱在癌症中的作用,甚至可以知道个体用药。比如COSMIC数据库的signature 3这个图谱特征,跟基因BRCA1/2关联,其与铂类化疗敏感相关。基于分解的特征图谱,计算每个非沉默突变对signature的累积贡献概率,从而寻找一些经典的癌基因热点突变与突变特征图谱潜在的因果关系,有助于研究癌症发生发展的机制与变化的过程。同时可以研究该图谱特征关联密切的热点突变富集在通路(pathway)的情况,有助于寻找潜在的治疗靶点与方法。
步骤六:特征图谱亚型聚类与预后关联获取方法:基于系数矩阵信息,获取每个样本对signature的贡献度,基于这些贡献度,可以使用无监督聚类方法对样本进行分类,得到不同的亚型,然后不同亚型与临床信息关联,做预后生存分析,可以找到与预后相关的图谱特征或者与之关联的预后因子 (内因或者外因)。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,其特征在于,包括以下步骤:
S1、数据集获取:突变数据集突变类型包含Somatic SNV和Somatic INDEL,对SomaticSNV和Somatic INDEL进行整体统计使用MuTect软件,使用MuTect软件来寻找Somatic SNV和Somatic INDEL位点,对Somatic SNV和Somatic INDEL进行注释使用ANNOVAR或者Oncotator软件,利用ANNOVAR或者Oncotator软件将所检测到SNP以及InDel基因组变异与外部数据库进行注释分析,确定与人类疾病高度相关变异的基因组位置、变异频率、蛋白有害性、基因型杂合性以及所在的功能通路信息;
S2、数据信息矩阵获取:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于数据集获取中的文件,选取匹配的参考基因组自动生成信息矩阵;
S3、突变频谱3D可视化展示:采用具有处理器的计算机,可进行并行运算操作,其中处理器配置成一个R脚本程序接口,基于数据信息矩阵获取中获取到的信息矩阵文件,生成该数据集合的突变频谱可视化3D lego图;
S4、突变特征频谱获取:主要包含两个方面,其一是特征提取算法方法,其二是频谱分析软件装置;
S5、特征图谱与基因关联获取:随着特征图谱的分解出来,根据数据集中注释的基因信息实现基因与特征图谱的关联,其实现的途径是确立每个基因非沉默突变对应到某个样本;
S6、特征图谱亚型聚类与预后关联获取:基于系数矩阵信息,获取每个样本对signature的贡献度,基于这些贡献度,可以使用无监督聚类方法对样本进行分类,得到不同的亚型,然后不同亚型与临床信息关联,做预后生存分析,可以找到与预后相关的图谱特征或者与之关联的预后因子。
2.根据权利要求1所述的结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,其特征在于,根据S1中的操作步骤,获取基于参考基因组GRCH37或者GRCH38的注释结果VCF或MAF格式的文件,注释的文件头应该包含至少五列信息:样本名,染色体编号,变异的位点坐标值,参考基因组的碱基和变异后的碱基。
3.根据权利要求1所述的结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,其特征在于,根据S4中的操作步骤,所述特征提取算法方法,包括以下步骤:
S401、确立分析模型:
Xm×n=Pm×kSk×n+Em×n
约束:P≥0,S≥0
其中
Figure FDA0003034032760000021
n为样本数目,m为特征类型,
Figure FDA0003034032760000022
S402、基于NMF算法的特征解空间的构建:Ck={P,S},表示分类为k的空间集;
S403、可逆跳转蒙特卡罗采样算法模型构建:对于mutational signature分解来讲,其最后得到的类别里边也是96个特征比例图,设最后分解的k个signature就是分层,对于每个signature来讲,其特征是固定的,且每个type对应到signature的概率分配是不一样的,但其分配和为1,对于每个样本来讲,其分配到每个signature的贡献度之和为1,对单个样本而言,设96个特征为:y={y1,...,y96}
其中yt为混合数目为k的多元正态混合分布模型f(yt)中抽取的一组随机样本观测值,则包含未知参数Θ的混合模型为:
Figure FDA0003034032760000023
由此可得似然函数模型为:
Figure FDA0003034032760000031
该模型的先验分布为:
Figure FDA0003034032760000032
Figure FDA0003034032760000033
Figure FDA0003034032760000034
i∈[1,n],t∈[1,m],j∈[1,k]
其中超参数为:
Figure FDA0003034032760000035
S404、特征相似性计算方法:
Figure FDA0003034032760000036
S405、轮廓系数计算:将所有k对应的每个特征作为一个类,通过轮廓系数公式进行这k类数据的评估分析,获取轮廓指数;
S406、运行结果可视化展示方式:将基础矩阵进行归一化后,按照百分比把每个特征属性的柱状图刻画出来,采用不同的颜色进行区分。
4.根据权利要求3所述的结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,其特征在于,根据S402中的操作步骤,还包括以下步骤:
S4021、随机选取矩阵P0与S0,并且要求P0与S0均是非负定矩阵,归一化处理信息矩阵V0的列,按照V0矩阵的每一分量概率重新生成新的信息矩阵V;
S4022、定义好目标函数模型,模型如下:
Figure FDA0003034032760000037
S4023、获取最优初始解,将矩阵P0与S0进行按列拉直或者按照行拉直,然后按照P0拉直的向量在前,S0拉直的向量在后组成新的向量,该向量作为第二步模型的初始值输入,然后利用R统计软件中的nlm函数进行求最优解;
S4024、处理第三步的最优解,将小于0的分量替换为R统计软件中默认的double型最小的数值,然后根据S4023步骤中的向量拉直规则还原矩阵P与S,得到的P与S作为矩阵分解中的最优初始值;
S4025、获取迭代收敛解,将S4024步骤中得到的P和S,还有S4021步骤中得到的V进行跌代计算,精度选择为10^-10次方,迭代次数上限约定为100000,计算公式如下:
Figure FDA0003034032760000041
Figure FDA0003034032760000042
S4026、选取不同的分解梯度k,重复操作步骤S4021到S4025,针对每个k都重复进行100次试验,记录每次试验的数据结果,结果包括:k,V,P,S,E;
S4027、所有S4026步骤中组成的解空间就是特征提取的解空间。
5.根据权利要求3所述的结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,其特征在于,根据S403中的操作步骤,所述模型的Gibbs抽样约定为如下模型:
I):
Figure FDA0003034032760000043
其中
Figure FDA0003034032760000044
Figure FDA0003034032760000045
Figure FDA0003034032760000046
Figure FDA0003034032760000047
其中:
Figure FDA0003034032760000048
Figure FDA0003034032760000049
II):
Figure FDA00030340327600000410
其中
Figure FDA0003034032760000051
Figure FDA0003034032760000052
Figure FDA0003034032760000053
Figure FDA0003034032760000054
其中:
Figure FDA0003034032760000055
Figure FDA0003034032760000056
III):
Figure FDA0003034032760000057
其中:
Figure FDA0003034032760000058
Figure FDA0003034032760000059
6.根据权利要求5所述的结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,其特征在于,根据I)-III),所述抽样实现包括以下步骤:
S4031、使用Gibbs抽样,从
Figure FDA00030340327600000510
分布中抽取sji
S4032、使用Gibbs抽样,从
Figure FDA00030340327600000511
分布中抽取ptj
S4033、使用Gibbs抽样,从Gamma(αtt)分布中抽取
Figure FDA00030340327600000512
S4034、更新k,对于k的更新接受规则如下:
设RJMCMCNMF的分解过程,分解维度k的变化看做是状态从Ck跳跃到Ck′的过程,则设其跳跃的接受概率为:
Figure FDA00030340327600000513
其中
Figure FDA00030340327600000514
Figure FDA0003034032760000061
7.根据权利要求6所述的结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,其特征在于,在S4034中的操作步骤中,所述RJMCMCNMF实现包括步骤如下:
1)、设定初始值k0;
2)、计算收敛的初始S0,P0;
3)、通过公式抽样P,S,E;
4)、使用生长消亡方法,u~U(0,1),如果u≤bk,则进行生长步骤,如果bk<u≤bk+dk,则进行消亡步骤;
5)、重复以上步骤至设定的迭代步骤(step=10000,其中前1000次为燃烧期。
8.根据权利要求7所述的结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,其特征在于,在4)中的操作步骤中,所述生长步骤包括以下步骤:
4011)、k=k0+1;
4012)、执行2),收敛则继续以下步骤;
4013)、从Ck中抽取qk,即执行3);
4014)、计算α(k0,k);
4015)、计算特征之间的相似性;
4016)、u~U(0,1);
4017)、如果u≤α(k0,k),且两两相似性均小于0.3,则接受k,否则不接受。
9.根据权利要求7所述的结合轮廓系数和RJMCMC算法的肿瘤基因点突变的特征提取方法,其特征在于,在4)中的操作步骤中,所述消亡步骤包括以下步骤:
4021)、k=k0-1;
4022)、执行2),收敛则继续以下步骤;
4023)、从Ck中抽取qk,即执行3);
4024)、计算α(k0,k);
4025)、计算特征之间的相似性;
4026)、u~U(0,1);
4027)、如果u≤α(k0,k),且两两相似性均小于0.3,则接受k,否则不接受。
CN202110438217.0A 2021-04-22 2021-04-22 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法 Active CN113035275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110438217.0A CN113035275B (zh) 2021-04-22 2021-04-22 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110438217.0A CN113035275B (zh) 2021-04-22 2021-04-22 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法

Publications (2)

Publication Number Publication Date
CN113035275A true CN113035275A (zh) 2021-06-25
CN113035275B CN113035275B (zh) 2023-08-15

Family

ID=76457517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110438217.0A Active CN113035275B (zh) 2021-04-22 2021-04-22 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法

Country Status (1)

Country Link
CN (1) CN113035275B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023050490A1 (zh) * 2021-09-30 2023-04-06 深圳前海环融联易信息科技服务有限公司 数据关联特征分析方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150197785A1 (en) * 2012-08-10 2015-07-16 The Broad Institute, Inc. Methods and apparatus for analyzing and quantifying dna alterations in cancer
CN105044722A (zh) * 2015-08-03 2015-11-11 西安电子科技大学 合成孔径雷达目标的全贝叶斯特征提取方法
US20160042508A1 (en) * 2013-04-05 2016-02-11 New York University System, method and computer-accessible medium for obtaining and/or determining mesoscopic structure and orientation with fiber tracking
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
US20180060758A1 (en) * 2016-08-30 2018-03-01 Los Alamos National Security, Llc Source identification by non-negative matrix factorization combined with semi-supervised clustering
US10052026B1 (en) * 2017-03-06 2018-08-21 Bao Tran Smart mirror
CN110379460A (zh) * 2019-06-14 2019-10-25 西安电子科技大学 一种基于多组学数据的癌症分型信息处理方法
US20200297323A1 (en) * 2015-06-22 2020-09-24 Sunnybrook Research Institute Systems and methods for prediction of tumor treatment response to using texture derivatives computed from quantitative ultrasound parameters

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150197785A1 (en) * 2012-08-10 2015-07-16 The Broad Institute, Inc. Methods and apparatus for analyzing and quantifying dna alterations in cancer
US20160042508A1 (en) * 2013-04-05 2016-02-11 New York University System, method and computer-accessible medium for obtaining and/or determining mesoscopic structure and orientation with fiber tracking
US20200297323A1 (en) * 2015-06-22 2020-09-24 Sunnybrook Research Institute Systems and methods for prediction of tumor treatment response to using texture derivatives computed from quantitative ultrasound parameters
CN105044722A (zh) * 2015-08-03 2015-11-11 西安电子科技大学 合成孔径雷达目标的全贝叶斯特征提取方法
US20180060758A1 (en) * 2016-08-30 2018-03-01 Los Alamos National Security, Llc Source identification by non-negative matrix factorization combined with semi-supervised clustering
US10052026B1 (en) * 2017-03-06 2018-08-21 Bao Tran Smart mirror
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法
CN110379460A (zh) * 2019-06-14 2019-10-25 西安电子科技大学 一种基于多组学数据的癌症分型信息处理方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ANINDYA APRILIYANTI PRAVITASARI 等: "Unsupervised Learning for MRI Brain Tumor Segmentation with Spatially Variant Finite Mixture Model in Reversible Jump MCMC Algorithm", JOURNAL OF PHYSICS: CONFERENCE SERIES *
张文坤 等: "自动确定类别数的RJMCMC+SA图像分割算法研究", 图学学报 *
李洪东: "广义灰色分析体系建模的基本问题及其模型集群分析研究", 中国博士学位论文全文数据库 工程科技Ⅰ辑 *
梁胜彬 等: "一种基于FOA与Autoencoder改进的聚类算法", 河南大学学报(自然科学版) *
罗文 等: "基于结合多头注意力机制BiGRU网络的生物医学命名实体识别", 计算机应用与软件 *
谢丽莉 等: "基于贝叶斯分层混合模型的X线胸片图像病例分析", 医疗装备 *
金圣华: "马尔科夫蒙特卡洛在视网膜血管分割中的应用", 长沙大学学报 *
高悦 等: "一种基于狄利克雷过程混合模型的文本聚类算法", 信息网络安全 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023050490A1 (zh) * 2021-09-30 2023-04-06 深圳前海环融联易信息科技服务有限公司 数据关联特征分析方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113035275B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
Southworth et al. Aging mice show a decreasing correlation of gene expression within genetic modules
CA3039201A1 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
US20130254202A1 (en) Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism
Zhao et al. Haplotype assembly from aligned weighted SNP fragments
Feng et al. Estimation of cell lineage trees by maximum-likelihood phylogenetics
CN112509636B (zh) 一种肿瘤基因组拷贝数变异特征模式识别方法及其应用
Matsui et al. phyC: Clustering cancer evolutionary trees
Zeng et al. couple CoC+: An information-theoretic co-clustering-based transfer learning framework for the integrative analysis of single-cell genomic data
CN113035275B (zh) 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法
CN114913919A (zh) 一种单基因病遗传变异智能解读及报告的方法、系统及服务器
Wu et al. Identifying mutated driver pathways in cancer by integrating multi-omics data
Chai et al. Integrating multi-omics data with deep learning for predicting cancer prognosis
Bartlett et al. An eQTL biological data visualization challenge and approaches from the visualization community
Chand et al. Network biology approach for identifying key regulatory genes by expression based study of breast cancer
Dowell et al. Cell-type-specific predictive network yields novel insights into mouse embryonic stem cell self-renewal and cell fate
CN113035274A (zh) 一种基于nmf的肿瘤基因点突变的特征图谱提取算法
Rau et al. Individualized multi-omic pathway deviation scores using multiple factor analysis
US20240047010A1 (en) Structural variant evaluation through iterative genome construction
Kang et al. Inferring sequential order of somatic mutations during tumorgenesis based on Markov chain model
Wu et al. Nonparametric Bayesian two-level clustering for subject-level single-cell expression data
Ning et al. Imaging genetic association analysis of triple-negative breast cancer based on the integration of prior sample information
Fu et al. Joint clustering of single-cell sequencing and fluorescence in situ hybridization data for reconstructing clonal heterogeneity in cancers
Fan et al. The EM algorithm and the rise of computational biology
Khan et al. Assessing the performance of methods for cell clustering from single-cell DNA sequencing data
Tu et al. Improving the efficiency of single-cell genome sequencing based on overlapping pooling strategy and CNV analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant