CN113035274A

CN113035274A - 一种基于nmf的肿瘤基因点突变的特征图谱提取算法

Info

Publication number: CN113035274A
Application number: CN202110438203.9A
Authority: CN
Inventors: 李振彰; 罗文�; 陆海威; 钟祺楠; 翁剑波; 黄亮雄
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-06-25

Abstract

本发明提供一种基于NMF的肿瘤基因点突变的特征图谱提取算法，涉及肿瘤基因特征提取技术领域。该基于NMF的肿瘤基因点突变的特征图谱提取算法，包括以下步骤：S1、突变数据集MAF文件获取：采用具有处理器的计算机，可进行并行运算操作。该基于NMF的肿瘤基因点突变的特征图谱提取算法，实现突变集合的过滤，并结合了Oncotator注释软件，输出注释结果，方便使用，实现信息矩阵的快速获取，节约前期数据处理时间，提高效率，实现基于NMF算法的最优化算法模型与算法实现，以及完成代码软件装置设计，实现点突变，插入缺失特征图谱可视化实现装置，实现频谱特征分析软件装置，包括signature组成的贝叶斯网络装置，肿瘤预后分类器装置，非编码显著突变区域与signature的关联装置。

Description

一种基于NMF的肿瘤基因点突变的特征图谱提取算法

技术领域

本发明涉及肿瘤基因特征提取技术领域，具体为一种基于NMF的肿瘤基因点突变的特征图谱提取算法。

背景技术

癌症是基因疾病，是由生物体细胞突变引起的。随着基因检测技术例如下一代测序(NGS)的发展，人们发现这些突变是由特定突变特征的组合引起的，这些突变特征通常具有已知的基础过程，它可以更好地提供癌症机制信息，也有助于癌症的预防和治疗。人类的基因组只有一个，大约有5-10万个基因，约30亿个碱基对(包含A、T、C、G四种碱基)，共组成24个染色体，分别是22个体染色体、X染色体与Y染色体，每个染色体由四种不同的核苷酸组成——A/C/G/T。四个核苷酸实际上形成两对A-T、C-G，当A位于一个链上时，T位于另一个链上，当G位于一个链上时，C必须在同一位置组成。当癌症基因组发生突变时，其中一个核苷酸被另一个核苷酸交换，例如，T被A取代。除了替换(如插入和删除)之外，还有其他突变。突变可能是有缺陷的DNA修复或不同的突变过程的结果，如突变暴露(辐射，吸烟)，DNA的酶修饰等。对于癌症基因组，体细胞突变是其重要的特征之一，这些突变集中，只有少数是肿瘤的"驱动者"赋予选择性克隆生长优势，但只能提供有限的药物靶点或者预后评估，而其余的是"乘客"，在肿瘤的进化过程中没有得到积极的选择。所以实际上大多数突变都是无害的。按照突变的类型可以分为六大类，分别为C>A(表示有C变异成A)，C>G，C>T，T>A，T>C和T>G，按照三碱基核算则可以分为96种不同的突变类型。突变性特征是由不同的突变过程引起的突变类型的某种组合，然后除以该签名引起的突变总数，以便最终考虑每种突变类型的比例贡献。研究表明，某些突变类型在特定癌症中发生更为频繁。例如对肺和皮肤肿瘤中突变的肿瘤基因的分析表明,发现的突变类型与烟草致癌物和紫外光的实验结果相匹配,这主要是已知的外源性致癌物质影响着这些突变类型。值得注意的是，C:G>A:T突变在吸烟相关的肺癌中占主导地位,而C:G>T:A主要发生在dipyrimidines和CC:GG>TT:AA双核苷酸替代是常见的紫外线光相关皮肤癌的变化特征。因此，从基因组突变数据中寻找这些特征对于发现癌症的基本机制，做好预防和治疗非常重要。

目前，NMF即非负矩阵分解法是很多研究者关注的重点。NMF的基本原理是将信号矩阵分解为基本矩阵和相应的系数矩阵，根据代价函数来计算各个信号成分所对应的基本矩阵和系数矩阵，从而实现信号的分离。当下，研究工作者合理地认为在细胞中发生的生化过程通常是独立作用的，因此，可以假设基因组中的突变是细胞中所有突变过程活动的总和，其数据是所有检测样本的不同突变类型的突变计数和，即为观测到的信号矩阵Y。给定模型，Y＝WX+E，其中W为系数矩阵，也就是不同签名的集合，可以理解为MutationalSignature，X为基本矩阵，也就是决定其活动的强度，代表的是每个样本在每个MutationalSignature的贡献度，E代表误差项，也可以理解为信号分解的噪音。

NMF的优点是稳定性功能，它很好地确定了正确的签名数，由其衍生出一些生物学方法，专门应用于肿瘤特征图谱的提取的，比如NMF、BayeNMF、SigProfiler以及SignatureAnalyzer等。但在大多数人类癌症类型中,DNA损伤和修复过程所印迹的突变特征受到非常有限的表征，而且这些方法存在一定的局限性，功能相对单一，且对于一些数据集的分析结果差强人意，尤其是小样本数据或者低深度数据的结果，误差比较大。

发明内容

本发明提供的发明目的在于提供一种基于NMF的肿瘤基因点突变的特征图谱提取算法，该基于NMF的肿瘤基因点突变的特征图谱提取算法，适用于大小样本数据集，稳定性高，多种评估标准结合，准确性更高，包括从轮廓系数，误差项变化趋势，误差改变梯度变化。

为了实现上述的效果，本发明提供如下技术方案：一种基于NMF的肿瘤基因点突变的特征图谱提取算法，包括以下步骤：

S1、突变数据集MAF文件获取：采用具有处理器的计算机，可进行并行运算操作，其中处理器配置成一个perl脚本程序接口，对MuTect软件产生的SomaticSNV/InDel进行过滤操作，过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库；

S2、数据信息矩阵获取：采用具有处理器的计算机，可进行并行运算操作，其中处理器配置成一个R脚本程序接口，基于MAF文件自动生成信息矩阵；

S3、突变特征频谱获取：包含两个方面，其一是基于NMF的最优化特征提取算法方法，其二是频谱特征分析软件装置。

进一步的，根据S1中的操作步骤，过滤结果使用Oncotator软件进行注释，得到MAF格式结果文件，注释的文件头包含至少五列信息：样本名、染色体编号、变异的位点坐标值、参考基因组的碱基和变异后的碱基。

进一步的，根据S2中的操作步骤，所述信息矩阵包含三部分，分别为突变信息矩阵、样本列表文件和行属性名称列表。

进一步的，根据S3中的操作步骤，所述特征提取算法方法，包括以下步骤：

S301、确立分析模型：X_m×n＝P_m×kS_k×n+E_m×n

约束：P≥0，S≥0

其中

n为样本数目，m为特征类型，

S302、基于NMF算法的构建方法；

S303、运行结果可视化展示方式：对基础矩阵进行归一化后，按照百分比把每个特征属性的柱状图刻画出来，采用不同的颜色进行区分；

S304、频谱特征分析软件装置构建。

进一步的，根据S302中的操作步骤，所述基于NMF算法的构建方法，包括以下步骤：

S3021、按照列处理X，采用狄利克雷分布，对每一列进行抽取该分布下的数据分布，计算每个分量当前的概率值，概率与向量分量和的乘积向上取整即为该向量分量数值，并生成新的列向量；

S3022、定义好目标函数模型，模型如下：

其中：P≥0,S≥0,α＝17.6,β＝0.001；

S3023、基于S3021和S3022，采用R统计软件中的nlm函数进行求解目标函数的最优解，解为V0x’，对于最优解V0x’中小于0的置换为R统计软件中默认的double型最小的数值；

S3024、基于S3023的结果，按照S3022拉直的规则，从新逆向构建出P0矩阵与S0矩阵，然后采用NNMF的算法步骤进行迭代优化P0与S0矩阵，迭代次数为20000次，获得最后的P0矩阵与S0矩阵；

S3025、重复S3021到S3024的步骤100次，得到100次拟合的结果空间，基于这100次拟合的结果，通过以下公式计算每个结果对应的误差：

E＝||X-PS||²；

S3026、根据S3025的向量拉直规则还原矩阵P与S，得到的P与S作为矩阵分解中的最优初始值；

S3027、获取迭代收敛解，将S3026得到的P和S，与信息矩阵X进行跌代计算，精度选择为10^-10次方，迭代次数上限约定为100000，计算公式如下：

γ＝10^-09；

S3028、选取不同的分解梯度k，重复操作步骤S3021到S3027，针对每个k都重复进行100次试验，记录每次试验的数据结果，结果包括：k，X，P，S，E；

S3029、轮廓系数计算：将S3028所有k对应的每个特征作为一个类，通过轮廓系数公式进行k类数据的评估分析，获取轮廓指数、误差变化和误差梯度。

进一步的，根据S3025中操作步骤，选取误差最小的5次结果，采用kmeans进行聚类、聚类层数与分解k类一致，获得该结果下的各类中心作为新的初始值P与S，将矩阵P与S进行按列拉直或者按照行拉直，然后按照P拉直的向量在前，S拉直的向量在后组成新的向量X0x，重复S3022和S3023的步骤。

进一步的，在S301中的操作步骤中，所述频谱特征分析软件装置构建包含有构建signature组成的贝叶斯网络结构、构建基于signature特征的临床肿瘤预后分类器和构建基于MutSpot软件分析的非编码显著突变区域与signature的关联。

本发明提供了一种基于NMF的肿瘤基因点突变的特征图谱提取算法，具备以下有益效果：

该基于NMF的肿瘤基因点突变的特征图谱提取算法，实现突变集合的过滤，并结合了Oncotator注释软件，输出注释结果，方便使用，实现信息矩阵的快速获取，节约前期数据处理时间，提高效率，实现基于NMF算法的最优化算法模型与算法实现，以及完成代码软件装置设计，实现点突变，插入缺失特征图谱可视化实现装置，实现频谱特征分析软件装置，包括signature组成的贝叶斯网络装置，肿瘤预后分类器装置，非编码显著突变区域与signature的关联装置。

附图说明

图1为整体流程图；

图2为数据信息矩阵展示图；

图3a-图3c为轮廓系数计算评估分析图；

图4a-图4f为运行结果可视化展示图。

具体实施方式

参照图1-4f：本发明提供一种技术方案：一种基于NMF的肿瘤基因点突变的特征图谱提取算法，包括以下步骤：

步骤一：突变数据集MAF文件获取：采用具有处理器的计算机，可进行并行运算操作，其中处理器配置成一个perl脚本程序接口，对MuTect软件产生的SomaticSNV/InDel进行过滤操作，过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库；过滤结果使用Oncotator软件进行注释，得到MAF格式结果文件，释的文件头应该包含至少五列信息：样本名，染色体编号，变异的位点坐标值，参考基因组的碱基，变异后的碱基；

步骤二：数据信息矩阵获取：采用具有处理器的计算机，可进行并行运算操作，其中处理器配置成一个R脚本程序接口，基于MAF文件自动生成信息矩阵，信息矩阵包含三部分：a)突变信息矩阵，其中行代表属性，比如以6种碱基突变类型为中心，各取5’和3’各一个碱基形成多种组合，该组合有96种类型，以这96种突变类型为基础，确定肿瘤基因组的突变特征信息矩阵，矩阵的列代表每一个样本；b)样本列表文件，与a)中的列一致；c)行属性名称列表，与a)中的行一致。其过程展示图如附图2所示。

步骤三：突变特征频谱获取：该部分主要包含两个方面，其一是基于NMF的最优化特征提取算法方法，其二是频谱特征分析软件装置。

关于特征提取算法方法，具体技术方案如下：

1)、确立分析模型：

X_m×n＝P_m×kS_k×n+E_m×n

约束：P≥0，S≥0

其中

n为样本数目，m为特征类型，

2)、基于NMF算法的最优化算法的构建：

第一步：按照列处理X，处理规则如下：采用狄利克雷分布，对每一列进行抽取该分布下的数据分布，计算每个分量当前的概率值，该概率与向量分量和的乘积向上取整即为该向量分量数值，如此这样生成新的列向量，所有列向量组合一起重新生成新的信息矩阵V0，归一化处理信息矩阵V0的列，形成新的信息矩阵V，随机选取矩阵P0与S0，并且要求P0与S0均是非负定矩阵，然后拉直(按列或按行)P0与S0，接着按照P0拉直的向量在前，S0拉直的向量在后组成向量V0x；

第二步：定义好目标函数模型，模型如下：

其中：P≥0,S≥0,α＝17.6,β＝0.001

第三步：基于第一步第二步，采用R统计软件中的nlm函数进行求解目标函数的最优解，解为V0x’，对于最优解V0x’中小于0的置换为R统计软件中默认的double型最小的数值；

第四步：基于第三步的结果，按照第二步拉直的规则，从新逆向构建出P0矩阵与S0矩阵，然后采用NNMF的算法步骤进行迭代优化P0与S0矩阵，迭代次数为20000次，获得最后的P0矩阵与S0矩阵；

第五步：重复第一到第四的步骤100次，得到100次拟合的结果空间，基于这100次拟合的结果，通过以下公式计算每个结果对应的误差：

E＝||X-PS||²

然后选取误差最小的5次结果，采用kmeans进行聚类，聚类层数与分解k类一致，获得该结果下的各类中心作为新的初始值P与S；

将矩阵P与S进行按列拉直或者按照行拉直，然后按照P拉直的向量在前，S拉直的向量在后组成新的向量X0x，重复第二步，第三步；

第六步：根据第五步的向量拉直规则还原矩阵P与S，这步得到的P与S作为矩阵分解中的最优初始值；

第七步：获取迭代收敛解，将第六步得到的P，S，与信息矩阵X进行跌代计算，精度选择为10^-10次方，迭代次数上限约定为100000，计算公式如下：

γ＝10^-09

第八步：选取不同的分解梯度k(范围应该固定在1到30)，重复操作步骤第一到第七步，针对每个k都重复进行100次试验，记录每次试验的数据结果，结果包括：k，X，P，S，E；

第九步：轮廓系数计算：将第八步所有k对应的每个特征作为一个类，通过轮廓系数公式进行这k类数据的评估分析，获取轮廓指数，误差变化，误差梯度，如附图3a-3c所示：

特征k选取规则如下：

要求轮廓系数下降幅度小，不存在突然下降的趋势；

要求误差变化越来越小或者趋势平缓，不存在上升趋势；

要求误差变化梯度变化变小，并慢慢趋向于0。

基于以上规则，图上选取6个特征最为合理。

3)、运行结果可视化展示方式：将基础矩阵进行归一化后，按照百分比把每个特征属性的柱状图刻画出来，采用不同的颜色进行区分，如附图4a-4f所示：

4)、频谱特征分析软件装置构建，包含构建signature组成的贝叶斯网络结构，研究各种临床特征与signature之间网络之间的关系，构建基于signature特征的临床肿瘤预后分类器，用于预测治疗疗效评估，构建基于MutSpot软件分析的非编码显著突变区域与signature的关联，研究潜在的癌症发生发展机制。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于NMF的肿瘤基因点突变的特征图谱提取算法，其特征在于，包括以下步骤：

S1、突变数据集MAF文件获取：采用具有处理器的计算机，可进行并行运算操作，其中处理器配置成一个perl脚本程序接口，对MuTect软件产生的Somatic SNV/InDel进行过滤操作，过滤数据库包含TCGA数据库、ICGC数据库、千人基因组snp信息和DBsnp数据库；

2.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法，其特征在于，根据S1中的操作步骤，过滤结果使用Oncotator软件进行注释，得到MAF格式结果文件，注释的文件头包含至少五列信息：样本名、染色体编号、变异的位点坐标值、参考基因组的碱基和变异后的碱基。

3.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法，其特征在于，根据S2中的操作步骤，所述信息矩阵包含三部分，分别为突变信息矩阵、样本列表文件和行属性名称列表。

4.根据权利要求1所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法，其特征在于，根据S3中的操作步骤，所述特征提取算法方法，包括以下步骤：

S301、确立分析模型：X_m×n＝P_m×kS_k×n+E_m×n

约束：P≥0，S≥0

其中

n为样本数目，m为特征类型，

S302、基于NMF算法的构建方法；

S304、频谱特征分析软件装置构建。

5.根据权利要求4所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法，其特征在于，根据S302中的操作步骤，所述基于NMF算法的构建方法，包括以下步骤：

S3022、定义好目标函数模型，模型如下：

其中：P≥0,S≥0,α＝17.6,β＝0.001；

E＝||X-PS||²；

γ＝10^-09；

6.根据权利要求5所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法，其特征在于，根据S3025中操作步骤，选取误差最小的5次结果，采用kmeans进行聚类、聚类层数与分解k类一致，获得该结果下的各类中心作为新的初始值P与S，将矩阵P与S进行按列拉直或者按照行拉直，然后按照P拉直的向量在前，S拉直的向量在后组成新的向量X0x，重复S3022和S3023的步骤。

7.根据权利要求4所述的一种基于NMF的肿瘤基因点突变的特征图谱提取算法，其特征在于，在S301中的操作步骤中，所述频谱特征分析软件装置构建包含有构建signature组成的贝叶斯网络结构、构建基于signature特征的临床肿瘤预后分类器和构建基于MutSpot软件分析的非编码显著突变区域与signature的关联。