CN110379460A

CN110379460A - 一种基于多组学数据的癌症分型信息处理方法

Info

Publication number: CN110379460A
Application number: CN201910517713.8A
Authority: CN
Inventors: 张军英; 王东利; 袁细国
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-10-25
Anticipated expiration: 2039-06-14
Also published as: CN110379460B

Abstract

本发明属于生物及医学基因技术领域，公开了一种基于多组学数据的癌症分型信息处理方法；首先对多组学数据的单碱基突变数据进行预处理，转化成三碱基突变模式；对预处理得到的三碱基突变矩阵进行非负矩阵分解，对于分解得到的特征矩阵进行k‑means聚类分析，采用轮廓系数选取最优的k，得到突变主导下的癌症样本的亚型标签。接着对剩余的组学数据进行预处理，借助iclusterplus工具进行集成聚类分析，并使用最小贝叶斯准则确定聚类模型，再一次对样本进行亚型的定义，接着采用自定义的算法融合两次分型结果，确定样本最终的癌症亚型标签。本发明的数据获取便捷，工具便于操作，结果的可靠性相对较高。

Description

一种基于多组学数据的癌症分型信息处理方法

技术领域

本发明属于生物及医学基因技术领域，尤其涉及一种基于多组学数据的癌症分型信息处理方法。

背景技术

随着基因测序技术水平的提高，研究人员可以获得测序样本的脱氧核糖核酸(Deoxyribonucleic acid，DNA)分子层面的变化，证实了同一器官在不同的样本中DNA分子结构可能不同，而不同器官却可能存在相同的DNA分子结构，打破了长期以来传统分型的认知。人们有理由推测不同癌症类型，相同癌症类型的不同癌症亚型等等这些患者的分子结构更是错综复杂，解决这些疑难问题需要更多的时间和成本投入去进行大规模的基因数据分析。

2018年2月美国圣犹大医院最新研究结果表示不同年龄层的癌症患者往往是由不同的基因突变导致的。例如儿童和成年人就有此差别，这提示着这些患者可能受益于不同的疗法，这项研究是迄今为止对多种儿童癌症和成人癌症亚型基因组景观最全面的分析。研究人员利用三种不同的新一代分子测序方法评估了六种癌症亚型，并证实儿科癌症和成人癌症是由发生不同突变的不同基因引起的，这一重要结论已被临床诊断采纳，目前已知儿童癌症的治愈率超过80％，这样的结果令众人欣喜。对比之前已发表的多项成年人的癌症相关分析，聚焦点都在于关注DNA突变，而该团队分析了DNA拷贝数变异和染色体重排，这些数据来自对患者肿瘤组织和正常组织的完整DNA进行的全基因组测序，与此同时也开展了转录组测序。这项研究还包括首次对多种癌症亚型中的突变型和野生型等位基因的定量表达和定性表达进行全面评估。癌症是一种基因病，从基因突变的角度出发为该项研究取得重大成功奠定了基础，为广大科研人员更好的利用多组学数据研究癌症亚型增加了信心，并提供了新的思路方向。

目前，针对多组学数据研究癌症分型主要有以下几种：

1.基于谱的双聚类算法，该方法是基于基因表达数据的结构可以通过基因维度和样本维度的特征向量来描述这一理论。该方法先计算一定数量的基因和样本维度的特征向量，然后使用标准分割算法来划分基于特征向量重构的矩阵从而得到双聚类，但是局限性在该种方法只能针对单一组学数据，无法将多种组学数据综合分析，会由于基因数据的高维特性使得性能急剧下降。

2.一种包含邻居信息的多重紧密k近邻方法构建相似性网络融合(SimilarityNetwork Fusion,SNF)聚类方法。SNF包括两个主要步骤：为每个数据类型构建样本相似性网络，并使用非线性组合方法将这些网络集成到单一相似性网络中,该方法从不同数据源中获取共享和补充的信息，提供关于每个数据类型对观察到的样本之间的相似性的信息,并将其运用于癌症亚型聚类。该方法的不足之处在于直接将多组学数据融合在一起分析，没有考虑到多种组学数据之间的癌症分型的不同程度的影响。

现阶段使用多组学数据研究癌症分型主要思想可分为以下几种：

(1)现阶段使用多组学数据癌症分型存在单独研究一种组学数据，特别是基因突变数据，基因表达数据被应用的相对广泛。并且基于基因突变数据的传统的研究中，只关注单个碱基的突变，但是基于癌症发生的生物复杂性的事实，有理由怀疑单个碱基在癌症的形成中影响较小。所以基于癌症是由多种生物作用共同导致的，那么对于癌症亚型的定义就不单独着眼于一种组学数据。

(2)现阶段使用多组学数据癌症分型存在一次性融合所有组学数据，忽略不同平台数据之间的差异性。那么综合分析的结果就会存在相当大的误差，致使结果的不准性性，另一方面每一种组学数据的作用程度不一样，比如基因突变数据是导致癌症发生的根本原因，而基因表达等多组学数据就是癌症样本的表观变现，所以可以被制定不同的研究方案。

解决上述技术问题的难度：

(1)深入研究每一种组学数据在癌症的发生发展的作用机制，每一种组学数据的特点不同，需要为其找到最适合的研究方案和工具或者是综合多种组学数据的研究方案和工具，比如对于多组学数据中的单碱基突变数据，考虑把它转换成一种三碱基突变模式，这样不仅在于更精确的定位到突变的位置，而且把多个碱基共同影响癌症的发展也考虑其中。

(2)基于多组学数据对癌症分型的不同程度的影响，需要分层分析，那么对不同层次的癌症分型结果进行融合也是一个挑战，即如何将每一种组学数据主导下的癌症亚型标签进行最大的统一化。

解决上述技术问题的意义：

(1)提供基于多组学数据的癌症分型分析工具，转化单碱基突变数据并使用非负矩阵分解算法融合经典聚类分析了在突变数据主导下的癌症分型结果，并且进一步通过融合其他多种组学数据对同一种癌症不同的发展方向的影响获得对癌症样本更准确的分型结果。

(2)根据最终的癌症分型结果，挖掘各疾病分型相关分子生物因素对不同亚型的影响，找出癌症分型相关的分子标志物。

发明内容

针对现有技术存在的问题，本发明提供了一种基于多组学数据的癌症分型信息处理方法。

本发明是这样实现的，一种基于多组学数据的癌症分型信息处理方法，所述基于多组学数据的癌症分型信息处理方法包括：

第一步，对单碱基突变数据进行预处理，转化成三碱基突变模式。人类的双螺旋DNA结构表明DNA是由碱基配对原则构成的稳定双链结构，碱基配对规则指的是腺嘌呤碱基一定与T(胸腺嘧啶)碱基配对，C碱基一定与G配对，反之亦然。那么如果检测出单链DNA中某个碱基的突变，根据配对原则就可以确定另一条与之互补DNA链的突变类型。所以可以把单个碱基的变异归纳为六种类型C>A(G>T)，C>G(G>C)，C>T(G>A)，T>A(A>T)，T>C(A>G)，T>G(A>C)，其中C>A表示基因发生C碱基到A碱基的突变，括号中表示根据互补原则确定互补链对应位置的碱基突变情况，实质表示同一种突变类型。然后构造每一个单碱基突变对应的三碱基突变模式。例如某个位置发生了C＞A类型的突变，这个位置的上游碱基类别可以是A、T、G、C的任意一种，下游同理，将三个位置的碱基类型进行排列组合，共4×1×4等于16种可能性。而中间位置有6种不同的单碱基突变形式，所以一共可以构建6×16等于96种可能的三碱基突变模式；

第二步，对预处理得到的三碱基突变矩阵进行非负矩阵分解，NMF符号定义如下：

V_(F×N)＝W_(F×r)×H_(r×N)；

其中V代表分解前的原始数据，分解得到权重矩阵W和特征矩阵H，非负矩阵分解算法的使用条件是原始数据的所有的元素都要是非负的。分解前后可以理解为原始矩阵V的每一个列向量都可以由特征矩阵中所有列向量的加权和来表示，而对应的权重系数就是W的列向量的元素，NMF的难点在于关键参数r的选取，本发明确定r的取值是通过保证对样本特征最大程度的降维，即矩阵的最优因式分解等级。当确定r的值就确定了癌症突变数据所蕴含的突变特征数目，即找出每种癌症与已知的突变特征的联系，提供癌症的靶向分子标志物；

第三步，对于分解得到的特征矩阵进行k-means聚类分析，采用轮廓系数获得最优的k。k-means算法思想比较容易理解，对于给定的样本集按照样本之间距离的大小将样本集划分为k个结果集，通过选定最合适的k值使得簇中的点尽可能紧密的靠在一起，簇与簇之间的距离尽量大。距离的度量标准是多种方式的，这里采用欧氏距离来度量样本与样本之间的距离。k的取值是k-means算法的核心难点，也就是最终癌症亚型的数目。

轮廓系数法是一种有效的评价标准，基于聚合度和分离度两个指标衡量算法在不同k值的聚类效果，取值范围为[-1,1]，其值越大越好，且当值为负数时，表示样本被分配到错误的簇中，聚类结果认为是不可接受。对于接近0的值，则表明聚类结果有重叠的情况。令k从2到8取值，在每个k值上重复单次流程运行100次k-means算法，从而避免局部最优解，并计算当前k的平均轮廓系数，最后选取轮廓系数取到最大值所对应的k作为最终的聚类中心数目。得到突变主导下的癌症样本的亚型标签。

进一步，所述基于多组学数据的癌症分型信息处理方法进行多组学数据的数据预处理，包括缺失值的填充和筛选，使用多组学数据融合聚类的分析工具iclusterplus对癌症样本进行分型定义，并根据最小贝叶斯准则选取模型结构，确定亚型个数。

进一步，所述基于多组学数据的癌症分型信息处理方法融合两种分型结果的算法为分别对于两次分型结果中分别包含样本数目的结果集取交集，交集中包含的最多的样本，即为最先确定最终癌症亚型标签的样本，从而在原结果集中除去这些样本，对剩余的样本重复取交集分析的步骤，每次确定交集中包含最多样本的癌症亚型标签；重复上述步骤，直到每一个样本都有标签，最后按照亚型中包含的样本数目由多到少排序，确定最终亚型。

本发明的另一目的在于提供一种应用所述基于多组学数据的癌症分型信息处理方法的信息数据处理终端。

综上所述，本发明的优点为提供一种更为合理的针对多组学数据的癌症分型方法，不仅考虑到不同种数据对癌症分型不同层次的影响，而且合理的融合多种组学数据的不同影响，该分析方案的数据获取便捷，工具便于操作，结果的可靠性相对较高。

附图说明

图1是本发明实施例提供的基于多组学数据的癌症分型信息处理方法流程图。

图2是本发明实施例提供的基于多组学数据的癌症分型信息处理方法实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现阶段使用多组学数据癌症分型存在单独研究一种组学数据，特别是基因突变数据，基因表达数据被应用的相对广泛；使用多组学数据癌症分型存在一次性融合所有组学数据，忽略不同平台数据之间的差异性。本发明综合多种组学数据，并分层分析，对最深层次的治病因素，即基因的突变数据采取一种分析方案，对剩余三种组学数据采取更合适的融合分析工具，最后整合两种分型结果，定义最后的癌症亚型。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于多组学数据的癌症分型信息处理方法包括以下步骤：

S101：对单碱基突变数据进行预处理，转化成三碱基突变模式；

S102：对预处理得到的三碱基突变矩阵进行非负矩阵分解，找出每种癌症与已知的突变特征的联系，提供癌症的靶向分子标志物；

S103：对于分解得到的特征矩阵进行k-means聚类分析，采用轮廓系数获得最优的k，得到突变主导下的癌症样本的亚型标签；

S104：对剩余的多组学数据进行预处理，包括缺失值的补齐，数据过滤等；

S105：借助iclusterplus工具对剩余几种多组学数据进行综合聚类，使用最小贝叶斯准则确定聚类模型；

S106：使用自定义融合算法，将两次分析方案确定的癌症亚型结果进行综合，为样本确定最终的癌症亚型标签。

本发明实施例提供的基于多组学数据的癌症分型信息处理方法具体包括以下步骤：

V_(F×N)＝W_(F×r)×H_(r×N)；

第三步，对于分解得到的特征矩阵进行k-means聚类分析，采用轮廓系数获得最优的k。k-means算法思想比较容易理解，对于给定的样本集按照样本之间距离的大小将样本集划分为k个结果集，通过选定最合适的k值使得簇中的点尽可能紧密的靠在一起，簇与簇之间的距离尽量大。距离的度量标准是多种方式的，这里采用欧氏距离来度量样本与样本之间的距离。k的取值是k-means算法的核心难点，也就是最终癌症亚型的数目。轮廓系数法是一种有效的评价标准，基于聚合度和分离度两个指标衡量算法在不同k值的聚类效果，其取值范围为[-1,1]，并且值越大越好，且当值为负数时，表示样本被分配到错误的簇中，聚类结果认为是不可接受。对于接近0的值，则表明聚类结果有重叠的情况。令k从2到8取值，在每个k值上重复单次流程运行100次k-means算法，从而避免局部最优解，并计算当前k的平均轮廓系数，最后选取轮廓系数取到最大值所对应的k作为最终的聚类中心数目。得到突变主导下的癌症样本的亚型标签。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明实施例提供的基于多组学数据的癌症分型信息处理方法具体包括以下步骤：

(1)单碱基突变数据的处理

对癌症的基因组学数据中的单碱基突变数据进行全面深入的挖掘。首先对单碱基突变数据进行预处理，转化成三碱基突变模式。传统的分析都是直接基于单个碱基突变展开，扩展为三碱基突变模式带来了新的思考方向，究竟是单个碱基突变引发不同的癌变还是把该突变位点的相邻碱基类型作为癌变结果的必要条件。另外三个碱基刚好可以构成一个密码子，编码一种氨基酸，可以从密码子到蛋白质的角度对主导分型相关的三碱基突变进行解释，是一个优化的预处理方案。

接着对预处理得到的三碱基突变矩阵进行非负矩阵分解。分解结果一方面进行突变特征的频谱分析，找出每种癌症与已知的突变特征的联系，提供一些癌症的靶向分子标志物，增加实验的完整性。另一方面对于分解得到的特征矩阵进行k-means聚类分析，聚类分析是癌症亚型定义的主要途径，聚类算法的性能直接影响实验结果的可靠性。本发明采用轮廓系数对聚类性能进行矫正，得到突变主导下的癌症样本的亚型标签。

(2)剩余几种组学数据的处理

进行剩余几种多组学数据的数据预处理，包括缺失值的填充和筛选，然后使用多组学数据融合聚类的分析工具iclusterplus对癌症样本进行分型定义，并根据最小贝叶斯准则选取模型结构，确定亚型个数。在输入数据之前，对各组学数据针对性的进行预处理，增加聚类结果的真实性和可靠性。

(3)融合两种组学数据的结果

执行完一次上述算法流程，可以确定min(m,n)个亚型，然后剔除在A，B结果集中确定亚型标签的样本，重复上述算法步骤，直到每一个样本都有标签，最后按照亚型中包含的样本数目由多到少排序，确定最终亚型。当样本数少于原来结果集中的样本数则认为该次算法的结果没有实际意义，所以这里可能会过滤掉些许样本。

以肝癌(Liver Hepatocellular Carcinoma，LIHC)和乳腺癌(Breast invasiveCarcinoma，BRCA)的五种多组学(包括基因单碱基突变数据，DNA甲基化数据，拷贝数变异，mRNA基因表达数据，miRNA基因表达数据)数据为例：

表1 BRCA用于综合聚类的每种数据的情况说明表

表2 LIHC用于综合聚类的每种数据的情况说明表

基于单碱基突变数据的k-means聚类结果和基于剩余几种多组学数据的iclusterplus聚类结果中的聚类中心使用“Cluster”加序号标识，，在表1和表2中，表格中的样本数列分别表示每个k-means聚类中心簇和iclusterplus聚类中心簇中包含的样本数，但是注意表中标明的两种结果的聚类中心标识没有直接的关系，所含的样本也可能完全不同。经过自定义的融合两种分型结果的算法，两种癌症确定的最终亚型和每种亚型所包含的样本数如表3，最终的每种癌症亚型用“亚型”加序号标识，样本数列与表1和表2代表的含义相同。

表3两种癌症分型的最后结果表

基于上述步骤，完成了两种不同癌症的分型定义，即肝癌和乳腺癌在多组学数据的共同作用下，可以分成三种不同的亚型类型。为了证明实验结果的可靠性，将得到的两种癌症的样本分型结果与临床数据结合分析，临床数据同样来源于TCGA数据库，在收录样本的各种多组学数据的同时，TCGA保存了样本包括年龄，性别，种族，确诊检查所做的各项检查数据以及确诊时间和生存时间等临床信息。这些信息具有统计学意义，并且将分子层面的结论与临床信息相关联，可以参考医疗工作人员丰富的临床经验对实验结论进行矫正，也给读者一个更容易理解的解释。通过比较发现属于同一个癌症亚型的样本之间有些临床属性具有强的一致性。

如表4给出了肝癌样本三个亚型标签下不同临床信息特征的百分比，可以发现肝癌在男性中发病率要高于女性，且白种人可能更容易被感染，亚型1发病年龄高于其他两个亚型，因为亚型1中有74％的样本年龄在65岁以上，同样可以发现亚型2的预后性极差，生存时间绝大部分为一年。

对于乳腺癌样本于临床信息也做统计分析，结果如表5，乳腺癌患者绝大部分都是女性患者，TCGA数据库中只有不到十例是男性样本，这里不做性别分析，从表中可以看出乳腺癌的亚型3的发病年龄分布在48岁以下，且乳腺癌在不同种族间的发病率没有大的差异。对比表4和表5可以发现，乳腺癌的预后性优于肝癌，尤其亚型2中的样本在第三年的存活率高达94％。

表4 LIHC样本三个亚型的临床信息分析结果表

表5 BRCA样本三个亚型的临床信息分析结果表

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多组学数据的癌症分型信息处理方法，其特征在于，所述基于多组学数据的癌症分型信息处理方法包括：

第一步，对单碱基突变数据进行预处理，转化成三碱基突变模式；

第二步，对预处理得到的三碱基突变矩阵进行非负矩阵分解，找出每种癌症与已知的突变特征的联系，提供癌症的靶向分子标志物；

第三步，对于分解得到的特征矩阵进行k-means聚类分析，采用轮廓系数选取最优的k，得到突变主导下的癌症样本的亚型标签；

第四步，对剩余的多组学数据进行预处理，包括缺失值的补齐，数据过滤；

第五步，借助iclusterplus工具对剩余几种多组学数据进行综合聚类，使用最小贝叶斯准则确定聚类模型；

第六步，使用自定义融合算法，将两次分析方案确定的癌症亚型结果进行融合，为样本确定最终的癌症亚型标签。

2.如权利要求1所述的基于多组学数据的癌症分型信息处理方法，其特征在于，所述基于多组学数据的癌症分型信息处理方法进行多组学数据的数据预处理，包括缺失值的填充和筛选，使用多组学数据融合聚类的分析工具iclusterplus对癌症样本进行分型定义，并根据最小贝叶斯准则选取模型结构，确定亚型个数。

3.如权利要求1所述的基于多组学数据的癌症分型信息处理方法，其特征在于，所述基于多组学数据的癌症分型信息处理方法融合两种分型结果的算法为：

输入：基于基因突变数据的聚类结果集为A＝A₁,A₂,...,A_n

基于多组学数据的聚类结果集为B＝B₁,B₂,...,B_m

for i＝1,2,...,n

for j＝1,2,...,m

获取两个结果集的共同样本C(i×j)←A_i∩B_j

end j

end i

for i＝1,2,...,n

for j＝1,2,...,m

取所有交集含样本数最多的样本p,q←arg max_i,j|C(i×j)|

癌症最终亚型S_k←A_p∩B_q

保证每个样本不被分到两个亚型集中，i≠p,j≠q；p，q分别表示集合A，B中确定了亚型标签的样本

end j

end i

输出：min(m,n)个亚型

执行完一次上述流程，可以确定min(m,n)个亚型，然后剔除在A，B结果集中确定亚型标签的样本；重复上述步骤，直到每一个样本都有标签，最后按照亚型中包含的样本数目由多到少排序，这些亚型集中样本的亚型标签就是确定的最终亚型。

4.如权利要求1所述的基于多组学数据的癌症分型信息处理方法，其特征在于，所述基于多组学数据的癌症分型信息处理方法对单碱基突变数据进行预处理，转化成三碱基突变模式，碱基配对规则指的是A碱基一定与T碱基配对，C碱基一定与G碱基配对；那么如果检测出单链DNA中某个碱基的突变，根据配对原则就可以确定另一条与之互补DNA链相应碱基的突变类型；把单个碱基的变异归纳为六种类型C>A或G>T，C>G或G>C，C>T或G>A，T>A或A>T，T>C或A>G，T>G或A>C，其中C>A表示基因发生C碱基到A碱基的突变；然后构造每一个单碱基突变对应的三碱基突变模式。

5.如权利要求1所述的基于多组学数据的癌症分型信息处理方法，其特征在于，所述基于多组学数据的癌症分型信息处理方法第二步对预处理得到的三碱基突变矩阵进行非负矩阵分解，NMF符号定义：

V_(F×N)＝W_(F×r)×H_(r×N)；

其中V代表分解前的原始数据，分解得到权重矩阵W和特征矩阵H，非负矩阵分解算法的使用条件是原始数据的所有的元素都要是非负的；分解前后可以理解为原始矩阵V的每一个列向量都可以由特征矩阵中所有列向量的加权和来表示，而对应的权重系数就是W的列向量的元素，NMF的难点在于关键参数r的选取，确定r的取值是通过保证对样本特征最大程度的降维，即矩阵的最优因式分解等级；当确定r的值就确定癌症突变数据所蕴含的突变特征数目，即找出每种癌症与已知的突变特征的联系，提供癌症的靶向分子标志物。

6.如权利要求1所述的基于多组学数据的癌症分型信息处理方法，其特征在于，所述基于多组学数据的癌症分型信息处理方法对于分解得到的特征矩阵进行k-means聚类分析，采用轮廓系数获得最优的k；k-means算法思想比较容易理解，对于给定的样本集按照样本之间距离的大小将样本集划分为k个结果集，通过选定最合适的k值使得簇中的点尽可能紧密的靠在一起，簇与簇之间的距离尽量大；距离的度量标准是多种方式的，采用欧氏距离来度量样本与样本之间的距离；k的取值是k-means算法的核心难点，也就是最终癌症亚型的数目。

7.一种应用权利要求1～6任意一项所述基于多组学数据的癌症分型信息处理方法的信息数据处理终端。