CN113380326B

CN113380326B - 一种基于pam聚类算法的基因表达数据分析方法

Info

Publication number: CN113380326B
Application number: CN202110636220.3A
Authority: CN
Inventors: 付聪; 梁磊; 张彦; 易星丞; 许彤
Original assignee: Jilin Puchuan Bio Medicine Co ltd
Current assignee: Jilin Puchuan Bio Medicine Co ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2024-04-19
Anticipated expiration: 2041-06-08
Also published as: CN113380326A

Abstract

一种基于PAM聚类算法的基因表达数据分析方法，涉及数据分析领域。本发明包括：数据获取、数据预处理、基因模块识别、GO富集分析、PPI网络构建、HUB基因识别和HUB基因验证。本发明在充分利用基因表达数据包含信息的基础上，可以通过多次迭代为每个基因寻找最佳隶属模块，故识别出的基因模块更加可靠。本发明可更好地挖掘出基因模块中包含的隐藏信息，从而对所要解决的生物信息学问题进行全面分析。本发明中通过对基因表达数据进行数据预处理，解决了基因表达数据中存在的噪声多、无关基因多、数据稀疏等问题。本发明通过下游的生物信息学分析流程，可完成一系列生物信息学分析，可以对待解决的生物信息学问题进行全面的分析与解释。

Description

一种基于PAM聚类算法的基因表达数据分析方法

技术领域

本发明涉及数据分析技术领域，具体涉及一种基于PAM聚类算法的基因表达数据分析方法。

背景技术

基因是在生物细胞染色体上具有遗传信息的基本单位，通过基因芯片可以测量出生物体内多个基因的表达情况。基因芯片所利用的是DNA的碱基配对原理，利用人工合成的碱基序列作为基因探针识别细胞中的特定基因，将经过荧光标记等处理后的细胞样本混合到基因芯片上使样本中的核苷酸片段与相应的基因探针杂交。通过荧光成像获得基因芯片上每一个点的荧光强度值，荧光强度值反映了样本中相应基因的表达量。

在一块基因芯片上存储着几千乃至上万个基因，通过基因芯片技术可以同时检测这些基因的表达情况。基因表达数据可以用如下所示的矩阵D表示。矩阵中每一行数据x_i.＝{x_i1x_i2...x_ip}表示一个样本中p个基因的表达值，每一列数据x._j＝{x_1jx_2j...x_nj}表示一个基因在n个不同样本上的表达值，1≤i≤n，1≤j≤p。

基因芯片技术的核心是以基因表达数据为基础进行基因模块的识别。相关研究表明，基因具有模块化发挥功能的特征，具有相同功能的基因其表达量往往相似，即所谓“共表达(Co-expression)”，这为从基因表达数据中识别基因模块提供了依据。所谓基因模块识别即基于基因表达数据的基因聚类，以挖掘具有生物信息学意义的基因集团。

目前，基因模块识别领域中最常用的一种方法是WGCNA算法，该方法首先通过基因表达数据构建基因共表达网络，然后基于该网络的拓扑结构，以层次聚类为基础对基因模块进行识别。虽然该方法已经获得了广泛的应用，但是仍存在一些不足亟待解决：首先，由于WGCNA算法的核心是层次聚类，则该WGCNA算法在执行过程中一旦确定基因属于树状图的哪个分支，就无法撤销，即WGCNA算法无法通过多次迭代为每个基因寻找最佳隶属模块。其次，WGCNA算法在进行模块聚类时仅利用基因表达数据构建基因共表达网络，没有充分利用基因表达数据本身包含的信息。

此外，现有的基因模块识别方法仅以基因聚类为主要工作，而没有对下游的分析进行详细的设计。虽然对于基因模块的准确识别具有重要价值，但是若不与下游的生物信息学分析相结合，则无法充分挖掘出基因模块的生物信息学意义，也无法解决存在的生物信息学问题。

发明内容

为了解决现有基因模块识别方法存在的技术问题，本发明提供一种基于PAM聚类算法的基因表达数据分析方法。本发明以PAM聚类算法为基础，不仅可以识别出可靠的基因模块，还能够利用所识别出的基因模块进行可靠的生物信息学分析。

本发明为解决技术问题所采用的技术方案如下：

本发明的一种基于PAM聚类算法的基因表达数据分析方法，包括以下步骤：

步骤一、数据获取；

步骤二、数据预处理；

步骤三、基因模块识别；

步骤四、GO富集分析；

步骤五、PPI网络构建；

步骤六、HUB基因识别；

步骤七、HUB基因验证。

作为优选的实施方式，步骤一的具体操作过程如下：

所述数据为基因表达数据，来源于生物信息学实验的测序结果或公共数据库。

作为优选的实施方式，步骤二的具体操作过程如下：

①删除低表达基因

删除在原始基因表达数据样本中不发生表达的低表达基因；

②删除离群样本

若某个样本与其他样本的表达量相似度较低时，则可判断为离群样本，应将其删除；

③识别差异表达基因

对同一个基因在对照组和实验组的表达量进行T检验，当该基因对应的表达量变化P<0.05时，将其认定为差异表达基因。

作为优选的实施方式，步骤二中，判断离群样本时，对同一生物信息学处理后的所有样本或同一组别的所有样本进行层次聚类，使用R语言stats包中的hclust()函数实现，距离选择欧氏距离，层次聚类结果中与95％以上的样本欧氏距离超过200的样本即为离群样本。

作为优选的实施方式，步骤三的具体操作过程如下：

首先利用肘部法则确定聚类簇数；然后使用PAM算法对预处理后得到的基因表达数据进行聚类，聚类中的一个簇对应于一个基因模块；将聚类结果中的小基因模块删除。

作为优选的实施方式，步骤四的具体操作过程如下：

将各基因模块包含的基因分别与基因本体数据库GO所提供的分子功能、生物过程和细胞组分进行富集分析。

作为优选的实施方式，步骤四中，采用费舍尔精确检验对得到的GO富集分析结果进行检验，并选择每个基因模块中P<0.05的GO条目进行研究。

作为优选的实施方式，步骤五的具体操作过程如下：

将每个基因模块中的基因分别输入STRING数据库，以构建蛋白互作网络。查询方式选择通过名称查询多个蛋白质；互作分值设置为中等置信度(0.400)。

作为优选的实施方式，步骤六的具体操作过程如下：

将不同基因模块的PPI网络分别输入Cytoscape软件中，利用其中的Cytohubba插件提供的Degree算法对网络中节点的重要性进行打分，并选择各基因模块打分最高的前5个基因作为该基因模块的HUB基因。

作为优选的实施方式，步骤七的具体操作过程如下：

利用生物信息学数据库验证所识别的HUB基因的可靠性。

本发明的有益效果是：

本发明提出了一种基于PAM聚类算法的基因表达数据分析方法，该方法弥补了现有基因模块识别方法中最常用的WGCNA算法的不足，即在充分利用基因表达数据包含信息的基础上，可以通过多次迭代为每个基因寻找最佳隶属模块，故识别出的基因模块更加可靠。

本发明可以更好地挖掘出基因模块中包含的隐藏信息，从而对所要解决的生物信息学问题进行全面分析。

利用本发明的分析方法处理后的数据，不仅可以用于基因模块的识别，还可以应用于其他的数据分析任务。

本发明中通过对基因表达数据进行数据预处理，解决了基因表达数据中存在的噪声多、无关基因多、数据稀疏等问题。

相比于现有大多数方法只进行基因模块的识别，本发明还设计了一个下游的生物信息学分析流程，利用此流程可以完成一系列生物信息学分析，可以对待解决的生物信息学问题进行全面的分析与解释。

附图说明

图1为本发明的一种基于PAM聚类算法的基因表达数据分析方法的流程图。

图2为具体实施方式一中肘部法则拐点图。

图3为具体实施方式一中PAM算法聚类结果。

图4为具体实施方式一中m1的PPI网络。

图5为具体实施方式一中m2的PPI网络。

图6为具体实施方式一中m3的PPI网络。

图7为具体实施方式一中Oncomine数据库检索结果。

具体实施方式

以下结合附图对本发明作进一步详细说明。

本发明提出了一种基于PAM聚类算法的基因表达数据分析方法，用以处理各类生物信息学、医学中产生的基因表达数据，并挖掘出其背后隐藏的潜在生物信息学意义。

本发明的一种基于PAM聚类算法的基因表达数据分析方法的整体流程如图1所示。该方法主要包括以下步骤：数据获取、数据预处理、基因模块识别、GO富集分析、PPI网络构建、HUB基因识别和HUB基因验证。

本发明的具体流程如下：

(1)数据的获取

本发明处理的对象为基因表达数据，包括RNA-Seq数据、基因芯片数据等。基因表达数据可以来自于生物信息学实验的测序结果，也可以来自于公共数据库(如GEO数据库、TCGA数据库等)。

(2)数据的预处理

由于原始基因表达数据样本往往包含大量噪声，含有许多无关特征(基因)，且存在数据稀疏等问题，故在分析前必须对其进行预处理，数据预处理主要包括以下步骤：

①删除低表达基因

低表达基因即在原始基因表达数据样本中不发生表达或表达量特别低的基因，这类基因对于生物信息学的分析没有价值，且会影响数据分析的效果，故在分析之前应将其删除。删除策略可以根据实际情况确定，如删除在20％以上的样本中表达量均为0的基因。

②删除离群样本

理想情况下，同一生物信息学处理后的所有样本或同一组别的所有样本，其表达量应高度相似。若某个样本与其他样本的表达量相似度较低时，则可判断为离群样本，为了避免这种样本对后续分析的影响，应将其删除。判断离群样本时，可以对同一生物信息学处理后的所有样本或同一组别的所有样本进行层次聚类(可以使用R语言stats包中的hclust()函数实现，距离选择欧氏距离)，层次聚类结果中与95％以上的样本相距较远(欧氏距离超过200)的样本即为离群样本。

③识别差异表达基因

差异表达基因即在对照组和实验组的表达量发生变化的基因，一般地，可以对同一个基因在对照组和实验组的表达量进行T检验，若同一个基因对应的表达量变化P<0.05即可认定为差异表达基因。后续的分析只针对数据集中的差异表达基因。

通过上述的数据预处理过程解决了基因表达数据中存在的噪声多、无关基因多、数据稀疏等问题。

(3)基因模块的识别

PAM算法(又称K-medoids算法)作为一种典型的基于划分方式的无监督聚类算法，可以通过多次迭代对样本点进行聚类，其有着聚类思想简单、聚类过程可行性高，聚类时间复杂度接近线性等优点，同时对大规模数据挖掘也表现出良好的支持，被广泛应用于诸多领域。区别于传统K-means算法，K-medoids不再每次选用簇的均值作为新的中心，弥补了离群点过于敏感的问题，对于数据存在的噪声与孤立点更加鲁棒，故PAM算法非常适合于基因表达数据的分析。

本发明使用PAM算法对预处理后得到的基因表达数据进行聚类，聚类中的一个簇即对应于一个基因模块。由于包含基因数量过少的基因模块其生物信息学意义往往不显著，且无法对其进行进一步分析，故应在聚类结果中将小基因模块(小基因模块一般为包含基因数量小于20的模块)删除。在进行聚类之前，需要提前利用肘部法则确定聚类簇数。

(4)基因模块的GO富集分析

为探究各基因模块的生物信息学意义，将各基因模块包含的基因分别与基因本体数据库GO(http://geneontology.org/)所提供的分子功能(molecular function，MF)、生物过程(biological process，BP)和细胞组分(cellular component，CC)进行富集分析。进一步地，使用费舍尔精确检验对得到的GO富集分析结果进行检验，并选择每个基因模块中P<0.05的GO条目进行研究。

(5)PPI网络的构建

将每个基因模块中的基因分别输入STRING数据库(https://string-db.org/)，以构建蛋白互作(Protein-Protein Interaction，PPI)网络。其中，查询方式选择“通过名称查询多个蛋白质”；互作分值设置为“中等置信度(0.400)”。

(6)HUB基因的识别

将不同基因模块的PPI网络分别输入Cytoscape软件中，利用其中的Cytohubba插件提供的Degree算法对网络中节点(基因)的重要性进行打分，并选择各基因模块打分最高的前5个基因作为该基因模块的HUB基因。

(7)HUB基因的验证

利用生物信息学数据库验证所识别的HUB基因的可靠性。如在癌症研究领域中，常使用Oncomine数据库进行HUB基因的验证。

Oncomine数据库(https://www.oncomine.org/)是一个整合了大量癌症突变谱、基因表达数据以及相关的临床信息的癌症基因芯片数据库。

Oncomine数据库的参数设置如下：阈值(P-value)设置为“0.05”；阈值(foldchange)设置为“2”；阈值(gene bank)设置为“top 10％”；数据类型设置为“all”。

具体实施方式一

基于本方法的NSC319726的作用机制研究

(1)基因的初步识别结果

本研究利用T检验对原始数据中每个基因在给药组和对照组中的表达量进行检验。经过P<＝0.05的条件筛选，共识别出5044个具有统计学意义的基因用于进一步分析。

(2)利用PAM算法挖掘功能基因模块

本研究利用肘部法则进一步确定聚类簇数(图2)。由图2可知，本研究中最佳聚类簇数为3。利用PAM算法对5044个基因在给药组的表达量进行了聚类分析，聚类结果见图3。显然，PAM算法得到的3个簇即为3个基因模块，模块m1包含1599个基因，模块m2包含1964个基因，模块m3包含1481个基因。

(3)模块的GO富集分析

利用GO数据库对各基因模块进行富集分析，各模块BP富集结果见表1。由表1可知，模块m1参与的生物途径主要与细胞周期的调控有关；模块m2参与的生物途径主要与活性氧的代谢有关；模块m3参与的生物途径主要与白细胞及中性粒细胞介导的免疫有关。

表1各模块BP富集结果

(4)模块的Reactome富集分析

利用Reactome数据库对各基因模块进行富集分析，各模块信号通路富集结果见表2。由表2可知，模块m1和m2参与的信号通路与有丝分裂过程密切相关；模块m3参与的信号通路主要与FGFR介导的信号传导密切相关。

表2各模块信号通路富集结果

(5)PPI网络的构建及关键基因的识别

将3个基因模块中的基因分别输入String数据库，以得到PPI网络。进一步地，利用Degree算法对3个PPI网络(图3、图4、图5)中的基因进行打分。并将各模块中打分最高的5个基因定义为HUB基因，所有HUB基因及其打分列于表3。

表3 HUB基因及其Degree算法得分

(6)利用Oncomine数据库探究HUB基因的功能

将识别出的15个HUB基因全部输入Oncomine数据库进行相关癌症疾病的检索，结果见图7。由图7可知，15个HUB基因在多种肿瘤疾病中均有差异表达，尤其是m2中的5个HUB基因(EGFR、PLK1、CCNB1、PTEN、VEGFA)在肿瘤疾病中的差异表达非常显著。

(7)结论

综上所述，利用本发明的一种基于PAM聚类算法的基因表达数据分析方法，挖掘小分子抗肿瘤药物NSC31972的药效机制。研究发现NSC31972主要通过调控活性氧的代谢、细胞周期的变化、白细胞及中性粒细胞介导的免疫三类生物途径对p53突变的肿瘤疾病起到治疗作用。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于PAM聚类算法的基因表达数据分析方法，其特征在于，包括以下步骤：

步骤一、数据获取；

步骤二、数据预处理；

步骤三、基因模块识别；

步骤四、GO富集分析；

步骤五、PPI网络构建；

步骤六、HUB基因识别；

步骤七、HUB基因验证；

其中，步骤二的具体操作过程如下：

①删除低表达基因

删除在原始基因表达数据样本中不发生表达的低表达基因；

②删除离群样本

③识别差异表达基因

对同一个基因在对照组和实验组的表达量进行T检验，当该基因对应的表达量变化P<0.05时，将其认定为差异表达基因；

其中，步骤二中，判断离群样本时，对同一生物信息学处理后的所有样本或同一组别的所有样本进行层次聚类，使用R语言stats包中的hclust()函数实现，距离选择欧氏距离，层次聚类结果中与95％以上的样本欧氏距离超过200的样本即为离群样本；

其中，步骤三的具体操作过程如下：

2.根据权利要求1所述的一种基于PAM聚类算法的基因表达数据分析方法，其特征在于，步骤一的具体操作过程如下：

3.根据权利要求2所述的一种基于PAM聚类算法的基因表达数据分析方法，其特征在于，步骤四的具体操作过程如下：

4.根据权利要求3所述的一种基于PAM聚类算法的基因表达数据分析方法，其特征在于，步骤四中，采用费舍尔精确检验对得到的GO富集分析结果进行检验，并选择每个基因模块中P<0.05的GO条目进行研究。

5.根据权利要求4所述的一种基于PAM聚类算法的基因表达数据分析方法，其特征在于，步骤五的具体操作过程如下：

将每个基因模块中的基因分别输入STRING数据库，以构建蛋白互作网络，查询方式选择通过名称查询多个蛋白质，互作分值设置为0.400。

6.根据权利要求5所述的一种基于PAM聚类算法的基因表达数据分析方法，其特征在于，步骤六的具体操作过程如下：

7.根据权利要求6所述的一种基于PAM聚类算法的基因表达数据分析方法，其特征在于，步骤七的具体操作过程如下：

利用生物信息学数据库验证所识别的HUB基因的可靠性。