CN113380326A - 一种基于pam聚类算法的基因表达数据分析方法 - Google Patents
一种基于pam聚类算法的基因表达数据分析方法 Download PDFInfo
- Publication number
- CN113380326A CN113380326A CN202110636220.3A CN202110636220A CN113380326A CN 113380326 A CN113380326 A CN 113380326A CN 202110636220 A CN202110636220 A CN 202110636220A CN 113380326 A CN113380326 A CN 113380326A
- Authority
- CN
- China
- Prior art keywords
- gene
- expression data
- gene expression
- module
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000007405 data analysis Methods 0.000 title claims abstract description 22
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 161
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000010201 enrichment analysis Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 6
- 230000031018 biological processes and functions Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000011160 research Methods 0.000 claims description 5
- 210000003850 cellular structure Anatomy 0.000 claims description 4
- 230000004879 molecular function Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000000729 Fisher's exact test Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 102000004169 proteins and genes Human genes 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 101150010487 are gene Proteins 0.000 claims description 2
- 230000006916 protein interaction Effects 0.000 claims description 2
- 238000003766 bioinformatics method Methods 0.000 abstract description 7
- 238000012795 verification Methods 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 20
- 230000004850 protein–protein interaction Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 9
- 206010028980 Neoplasm Diseases 0.000 description 5
- 230000008236 biological pathway Effects 0.000 description 4
- 230000004186 co-expression Effects 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 101150090724 3 gene Proteins 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000022131 cell cycle Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 230000021633 leukocyte mediated immunity Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004134 neutrophil mediated immunity Effects 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 108091008794 FGF receptors Proteins 0.000 description 1
- 102100032340 G2/mitotic-specific cyclin-B1 Human genes 0.000 description 1
- 101000868643 Homo sapiens G2/mitotic-specific cyclin-B1 Proteins 0.000 description 1
- 101000808011 Homo sapiens Vascular endothelial growth factor A Proteins 0.000 description 1
- 108700019961 Neoplasm Genes Proteins 0.000 description 1
- 102000048850 Neoplasm Genes Human genes 0.000 description 1
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 1
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 102100031463 Serine/threonine-protein kinase PLK1 Human genes 0.000 description 1
- 102100039037 Vascular endothelial growth factor A Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 1
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 1
- 102000052178 fibroblast growth factor receptor activity proteins Human genes 0.000 description 1
- 238000000799 fluorescence microscopy Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000001215 fluorescent labelling Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- -1 i.e. Proteins 0.000 description 1
- 101150044508 key gene Proteins 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000394 mitotic effect Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- XDHBUMNIQRLHGO-UKTHLTGXSA-N n-[(e)-1-pyridin-2-ylethylideneamino]azetidine-1-carbothioamide Chemical compound C=1C=CC=NC=1C(/C)=N/NC(=S)N1CCC1 XDHBUMNIQRLHGO-UKTHLTGXSA-N 0.000 description 1
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 230000008557 oxygen metabolism Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000003285 pharmacodynamic effect Effects 0.000 description 1
- 108010056274 polo-like kinase 1 Proteins 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于PAM聚类算法的基因表达数据分析方法,涉及数据分析领域。本发明包括:数据获取、数据预处理、基因模块识别、GO富集分析、PPI网络构建、HUB基因识别和HUB基因验证。本发明在充分利用基因表达数据包含信息的基础上,可以通过多次迭代为每个基因寻找最佳隶属模块,故识别出的基因模块更加可靠。本发明可更好地挖掘出基因模块中包含的隐藏信息,从而对所要解决的生物信息学问题进行全面分析。本发明中通过对基因表达数据进行数据预处理,解决了基因表达数据中存在的噪声多、无关基因多、数据稀疏等问题。本发明通过下游的生物信息学分析流程,可完成一系列生物信息学分析,可以对待解决的生物信息学问题进行全面的分析与解释。
Description
技术领域
本发明涉及数据分析技术领域,具体涉及一种基于PAM聚类算法的基因表达数据分析方法。
背景技术
基因是在生物细胞染色体上具有遗传信息的基本单位,通过基因芯片可以测量出生物体内多个基因的表达情况。基因芯片所利用的是DNA的碱基配对原理,利用人工合成的碱基序列作为基因探针识别细胞中的特定基因,将经过荧光标记等处理后的细胞样本混合到基因芯片上使样本中的核苷酸片段与相应的基因探针杂交。通过荧光成像获得基因芯片上每一个点的荧光强度值,荧光强度值反映了样本中相应基因的表达量。
在一块基因芯片上存储着几千乃至上万个基因,通过基因芯片技术可以同时检测这些基因的表达情况。基因表达数据可以用如下所示的矩阵D表示。矩阵中每一行数据xi.={xi1xi2...xip}表示一个样本中p个基因的表达值,每一列数据x.j={x1jx2j...xnj}表示一个基因在n个不同样本上的表达值,1≤i≤n,1≤j≤p。
基因芯片技术的核心是以基因表达数据为基础进行基因模块的识别。相关研究表明,基因具有模块化发挥功能的特征,具有相同功能的基因其表达量往往相似,即所谓“共表达(Co-expression)”,这为从基因表达数据中识别基因模块提供了依据。所谓基因模块识别即基于基因表达数据的基因聚类,以挖掘具有生物信息学意义的基因集团。
目前,基因模块识别领域中最常用的一种方法是WGCNA算法,该方法首先通过基因表达数据构建基因共表达网络,然后基于该网络的拓扑结构,以层次聚类为基础对基因模块进行识别。虽然该方法已经获得了广泛的应用,但是仍存在一些不足亟待解决:首先,由于WGCNA算法的核心是层次聚类,则该WGCNA算法在执行过程中一旦确定基因属于树状图的哪个分支,就无法撤销,即WGCNA算法无法通过多次迭代为每个基因寻找最佳隶属模块。其次,WGCNA算法在进行模块聚类时仅利用基因表达数据构建基因共表达网络,没有充分利用基因表达数据本身包含的信息。
此外,现有的基因模块识别方法仅以基因聚类为主要工作,而没有对下游的分析进行详细的设计。虽然对于基因模块的准确识别具有重要价值,但是若不与下游的生物信息学分析相结合,则无法充分挖掘出基因模块的生物信息学意义,也无法解决存在的生物信息学问题。
发明内容
为了解决现有基因模块识别方法存在的技术问题,本发明提供一种基于PAM聚类算法的基因表达数据分析方法。本发明以PAM聚类算法为基础,不仅可以识别出可靠的基因模块,还能够利用所识别出的基因模块进行可靠的生物信息学分析。
本发明为解决技术问题所采用的技术方案如下:
本发明的一种基于PAM聚类算法的基因表达数据分析方法,包括以下步骤:
步骤一、数据获取;
步骤二、数据预处理;
步骤三、基因模块识别;
步骤四、GO富集分析;
步骤五、PPI网络构建;
步骤六、HUB基因识别;
步骤七、HUB基因验证。
作为优选的实施方式,步骤一的具体操作过程如下:
所述数据为基因表达数据,来源于生物信息学实验的测序结果或公共数据库。
作为优选的实施方式,步骤二的具体操作过程如下:
①删除低表达基因
删除在原始基因表达数据样本中不发生表达的低表达基因;
②删除离群样本
若某个样本与其他样本的表达量相似度较低时,则可判断为离群样本,应将其删除;
③识别差异表达基因
对同一个基因在对照组和实验组的表达量进行T检验,当该基因对应的表达量变化P<0.05时,将其认定为差异表达基因。
作为优选的实施方式,步骤二中,判断离群样本时,对同一生物信息学处理后的所有样本或同一组别的所有样本进行层次聚类,使用R语言stats包中的hclust()函数实现,距离选择欧氏距离,层次聚类结果中与95%以上的样本欧氏距离超过200的样本即为离群样本。
作为优选的实施方式,步骤三的具体操作过程如下:
首先利用肘部法则确定聚类簇数;然后使用PAM算法对预处理后得到的基因表达数据进行聚类,聚类中的一个簇对应于一个基因模块;将聚类结果中的小基因模块删除。
作为优选的实施方式,步骤四的具体操作过程如下:
将各基因模块包含的基因分别与基因本体数据库GO所提供的分子功能、生物过程和细胞组分进行富集分析。
作为优选的实施方式,步骤四中,采用费舍尔精确检验对得到的GO富集分析结果进行检验,并选择每个基因模块中P<0.05的GO条目进行研究。
作为优选的实施方式,步骤五的具体操作过程如下:
将每个基因模块中的基因分别输入STRING数据库,以构建蛋白互作网络。查询方式选择通过名称查询多个蛋白质;互作分值设置为中等置信度(0.400)。
作为优选的实施方式,步骤六的具体操作过程如下:
将不同基因模块的PPI网络分别输入Cytoscape软件中,利用其中的Cytohubba插件提供的Degree算法对网络中节点的重要性进行打分,并选择各基因模块打分最高的前5个基因作为该基因模块的HUB基因。
作为优选的实施方式,步骤七的具体操作过程如下:
利用生物信息学数据库验证所识别的HUB基因的可靠性。
本发明的有益效果是:
本发明提出了一种基于PAM聚类算法的基因表达数据分析方法,该方法弥补了现有基因模块识别方法中最常用的WGCNA算法的不足,即在充分利用基因表达数据包含信息的基础上,可以通过多次迭代为每个基因寻找最佳隶属模块,故识别出的基因模块更加可靠。
本发明可以更好地挖掘出基因模块中包含的隐藏信息,从而对所要解决的生物信息学问题进行全面分析。
利用本发明的分析方法处理后的数据,不仅可以用于基因模块的识别,还可以应用于其他的数据分析任务。
本发明中通过对基因表达数据进行数据预处理,解决了基因表达数据中存在的噪声多、无关基因多、数据稀疏等问题。
相比于现有大多数方法只进行基因模块的识别,本发明还设计了一个下游的生物信息学分析流程,利用此流程可以完成一系列生物信息学分析,可以对待解决的生物信息学问题进行全面的分析与解释。
附图说明
图1为本发明的一种基于PAM聚类算法的基因表达数据分析方法的流程图。
图2为具体实施方式一中肘部法则拐点图。
图3为具体实施方式一中PAM算法聚类结果。
图4为具体实施方式一中m1的PPI网络。
图5为具体实施方式一中m2的PPI网络。
图6为具体实施方式一中m3的PPI网络。
图7为具体实施方式一中Oncomine数据库检索结果。
具体实施方式
以下结合附图对本发明作进一步详细说明。
本发明提出了一种基于PAM聚类算法的基因表达数据分析方法,用以处理各类生物信息学、医学中产生的基因表达数据,并挖掘出其背后隐藏的潜在生物信息学意义。
本发明的一种基于PAM聚类算法的基因表达数据分析方法的整体流程如图1所示。该方法主要包括以下步骤:数据获取、数据预处理、基因模块识别、GO富集分析、PPI网络构建、HUB基因识别和HUB基因验证。
本发明的具体流程如下:
(1)数据的获取
本发明处理的对象为基因表达数据,包括RNA-Seq数据、基因芯片数据等。基因表达数据可以来自于生物信息学实验的测序结果,也可以来自于公共数据库(如GEO数据库、TCGA数据库等)。
(2)数据的预处理
由于原始基因表达数据样本往往包含大量噪声,含有许多无关特征(基因),且存在数据稀疏等问题,故在分析前必须对其进行预处理,数据预处理主要包括以下步骤:
①删除低表达基因
低表达基因即在原始基因表达数据样本中不发生表达或表达量特别低的基因,这类基因对于生物信息学的分析没有价值,且会影响数据分析的效果,故在分析之前应将其删除。删除策略可以根据实际情况确定,如删除在20%以上的样本中表达量均为0的基因。
②删除离群样本
理想情况下,同一生物信息学处理后的所有样本或同一组别的所有样本,其表达量应高度相似。若某个样本与其他样本的表达量相似度较低时,则可判断为离群样本,为了避免这种样本对后续分析的影响,应将其删除。判断离群样本时,可以对同一生物信息学处理后的所有样本或同一组别的所有样本进行层次聚类(可以使用R语言stats包中的hclust()函数实现,距离选择欧氏距离),层次聚类结果中与95%以上的样本相距较远(欧氏距离超过200)的样本即为离群样本。
③识别差异表达基因
差异表达基因即在对照组和实验组的表达量发生变化的基因,一般地,可以对同一个基因在对照组和实验组的表达量进行T检验,若同一个基因对应的表达量变化P<0.05即可认定为差异表达基因。后续的分析只针对数据集中的差异表达基因。
通过上述的数据预处理过程解决了基因表达数据中存在的噪声多、无关基因多、数据稀疏等问题。
(3)基因模块的识别
PAM算法(又称K-medoids算法)作为一种典型的基于划分方式的无监督聚类算法,可以通过多次迭代对样本点进行聚类,其有着聚类思想简单、聚类过程可行性高,聚类时间复杂度接近线性等优点,同时对大规模数据挖掘也表现出良好的支持,被广泛应用于诸多领域。区别于传统K-means算法,K-medoids不再每次选用簇的均值作为新的中心,弥补了离群点过于敏感的问题,对于数据存在的噪声与孤立点更加鲁棒,故PAM算法非常适合于基因表达数据的分析。
本发明使用PAM算法对预处理后得到的基因表达数据进行聚类,聚类中的一个簇即对应于一个基因模块。由于包含基因数量过少的基因模块其生物信息学意义往往不显著,且无法对其进行进一步分析,故应在聚类结果中将小基因模块(小基因模块一般为包含基因数量小于20的模块)删除。在进行聚类之前,需要提前利用肘部法则确定聚类簇数。
(4)基因模块的GO富集分析
为探究各基因模块的生物信息学意义,将各基因模块包含的基因分别与基因本体数据库GO(http://geneontology.org/)所提供的分子功能(molecular function,MF)、生物过程(biological process,BP)和细胞组分(cellular component,CC)进行富集分析。进一步地,使用费舍尔精确检验对得到的GO富集分析结果进行检验,并选择每个基因模块中P<0.05的GO条目进行研究。
(5)PPI网络的构建
将每个基因模块中的基因分别输入STRING数据库(https://string-db.org/),以构建蛋白互作(Protein-Protein Interaction,PPI)网络。其中,查询方式选择“通过名称查询多个蛋白质”;互作分值设置为“中等置信度(0.400)”。
(6)HUB基因的识别
将不同基因模块的PPI网络分别输入Cytoscape软件中,利用其中的Cytohubba插件提供的Degree算法对网络中节点(基因)的重要性进行打分,并选择各基因模块打分最高的前5个基因作为该基因模块的HUB基因。
(7)HUB基因的验证
利用生物信息学数据库验证所识别的HUB基因的可靠性。如在癌症研究领域中,常使用Oncomine数据库进行HUB基因的验证。
Oncomine数据库(https://www.oncomine.org/)是一个整合了大量癌症突变谱、基因表达数据以及相关的临床信息的癌症基因芯片数据库。
Oncomine数据库的参数设置如下:阈值(P-value)设置为“0.05”;阈值(foldchange)设置为“2”;阈值(gene bank)设置为“top 10%”;数据类型设置为“all”。
具体实施方式一
基于本方法的NSC319726的作用机制研究
(1)基因的初步识别结果
本研究利用T检验对原始数据中每个基因在给药组和对照组中的表达量进行检验。经过P<=0.05的条件筛选,共识别出5044个具有统计学意义的基因用于进一步分析。
(2)利用PAM算法挖掘功能基因模块
本研究利用肘部法则进一步确定聚类簇数(图2)。由图2可知,本研究中最佳聚类簇数为3。利用PAM算法对5044个基因在给药组的表达量进行了聚类分析,聚类结果见图3。显然,PAM算法得到的3个簇即为3个基因模块,模块m1包含1599个基因,模块m2包含1964个基因,模块m3包含1481个基因。
(3)模块的GO富集分析
利用GO数据库对各基因模块进行富集分析,各模块BP富集结果见表1。由表1可知,模块m1参与的生物途径主要与细胞周期的调控有关;模块m2参与的生物途径主要与活性氧的代谢有关;模块m3参与的生物途径主要与白细胞及中性粒细胞介导的免疫有关。
表1各模块BP富集结果
(4)模块的Reactome富集分析
利用Reactome数据库对各基因模块进行富集分析,各模块信号通路富集结果见表2。由表2可知,模块m1和m2参与的信号通路与有丝分裂过程密切相关;模块m3参与的信号通路主要与FGFR介导的信号传导密切相关。
表2各模块信号通路富集结果
(5)PPI网络的构建及关键基因的识别
将3个基因模块中的基因分别输入String数据库,以得到PPI网络。进一步地,利用Degree算法对3个PPI网络(图3、图4、图5)中的基因进行打分。并将各模块中打分最高的5个基因定义为HUB基因,所有HUB基因及其打分列于表3。
表3 HUB基因及其Degree算法得分
(6)利用Oncomine数据库探究HUB基因的功能
将识别出的15个HUB基因全部输入Oncomine数据库进行相关癌症疾病的检索,结果见图7。由图7可知,15个HUB基因在多种肿瘤疾病中均有差异表达,尤其是m2中的5个HUB基因(EGFR、PLK1、CCNB1、PTEN、VEGFA)在肿瘤疾病中的差异表达非常显著。
(7)结论
综上所述,利用本发明的一种基于PAM聚类算法的基因表达数据分析方法,挖掘小分子抗肿瘤药物NSC31972的药效机制。研究发现NSC31972主要通过调控活性氧的代谢、细胞周期的变化、白细胞及中性粒细胞介导的免疫三类生物途径对p53突变的肿瘤疾病起到治疗作用。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于PAM聚类算法的基因表达数据分析方法,其特征在于,包括以下步骤:
步骤一、数据获取;
步骤二、数据预处理;
步骤三、基因模块识别;
步骤四、GO富集分析;
步骤五、PPI网络构建;
步骤六、HUB基因识别;
步骤七、HUB基因验证。
2.根据权利要求1所述的一种基于PAM聚类算法的基因表达数据分析方法,其特征在于,步骤一的具体操作过程如下:
所述数据为基因表达数据,来源于生物信息学实验的测序结果或公共数据库。
3.根据权利要求2所述的一种基于PAM聚类算法的基因表达数据分析方法,其特征在于,步骤二的具体操作过程如下:
①删除低表达基因
删除在原始基因表达数据样本中不发生表达的低表达基因;
②删除离群样本
若某个样本与其他样本的表达量相似度较低时,则可判断为离群样本,应将其删除;
③识别差异表达基因
对同一个基因在对照组和实验组的表达量进行T检验,当该基因对应的表达量变化P<0.05时,将其认定为差异表达基因。
4.根据权利要求3所述的一种基于PAM聚类算法的基因表达数据分析方法,其特征在于,步骤二中,判断离群样本时,对同一生物信息学处理后的所有样本或同一组别的所有样本进行层次聚类,使用R语言stats包中的hclust()函数实现,距离选择欧氏距离,层次聚类结果中与95%以上的样本欧氏距离超过200的样本即为离群样本。
5.根据权利要求3所述的一种基于PAM聚类算法的基因表达数据分析方法,其特征在于,步骤三的具体操作过程如下:
首先利用肘部法则确定聚类簇数;然后使用PAM算法对预处理后得到的基因表达数据进行聚类,聚类中的一个簇对应于一个基因模块;将聚类结果中的小基因模块删除。
6.根据权利要求5所述的一种基于PAM聚类算法的基因表达数据分析方法,其特征在于,步骤四的具体操作过程如下:
将各基因模块包含的基因分别与基因本体数据库GO所提供的分子功能、生物过程和细胞组分进行富集分析。
7.根据权利要求6所述的一种基于PAM聚类算法的基因表达数据分析方法,其特征在于,步骤四中,采用费舍尔精确检验对得到的GO富集分析结果进行检验,并选择每个基因模块中P<0.05的GO条目进行研究。
8.根据权利要求6所述的一种基于PAM聚类算法的基因表达数据分析方法,其特征在于,步骤五的具体操作过程如下:
将每个基因模块中的基因分别输入STRING数据库,以构建蛋白互作网络。查询方式选择通过名称查询多个蛋白质;互作分值设置为中等置信度(0.400)。
9.根据权利要求8所述的一种基于PAM聚类算法的基因表达数据分析方法,其特征在于,步骤六的具体操作过程如下:
将不同基因模块的PPI网络分别输入Cytoscape软件中,利用其中的Cytohubba插件提供的Degree算法对网络中节点的重要性进行打分,并选择各基因模块打分最高的前5个基因作为该基因模块的HUB基因。
10.根据权利要求9所述的一种基于PAM聚类算法的基因表达数据分析方法,其特征在于,步骤七的具体操作过程如下:
利用生物信息学数据库验证所识别的HUB基因的可靠性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110636220.3A CN113380326B (zh) | 2021-06-08 | 2021-06-08 | 一种基于pam聚类算法的基因表达数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110636220.3A CN113380326B (zh) | 2021-06-08 | 2021-06-08 | 一种基于pam聚类算法的基因表达数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113380326A true CN113380326A (zh) | 2021-09-10 |
CN113380326B CN113380326B (zh) | 2024-04-19 |
Family
ID=77576378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110636220.3A Active CN113380326B (zh) | 2021-06-08 | 2021-06-08 | 一种基于pam聚类算法的基因表达数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113380326B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114277134A (zh) * | 2021-10-20 | 2022-04-05 | 上海交通大学医学院附属瑞金医院 | 一种弥漫大b细胞淋巴瘤的分型模型、分型方法和试剂盒 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019046703A1 (en) * | 2017-09-01 | 2019-03-07 | Novozymes A/S | METHODS OF ENHANCING GENOME EDITION IN FUNGI |
CN109584962A (zh) * | 2018-10-26 | 2019-04-05 | 广州基迪奥生物科技有限公司 | 一种RNA-seq在线分析报告系统及其生成方法 |
CN110970116A (zh) * | 2019-12-05 | 2020-04-07 | 吉林省蒲川生物医药有限公司 | 一种基于转录组学的中药药理机制分析方法 |
CN111329861A (zh) * | 2020-04-17 | 2020-06-26 | 中国人民解放军总医院 | 苯扎明在制备防治心肌缺血再灌注损伤或缺血性心脏病药物中的应用 |
-
2021
- 2021-06-08 CN CN202110636220.3A patent/CN113380326B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019046703A1 (en) * | 2017-09-01 | 2019-03-07 | Novozymes A/S | METHODS OF ENHANCING GENOME EDITION IN FUNGI |
CN109584962A (zh) * | 2018-10-26 | 2019-04-05 | 广州基迪奥生物科技有限公司 | 一种RNA-seq在线分析报告系统及其生成方法 |
CN110970116A (zh) * | 2019-12-05 | 2020-04-07 | 吉林省蒲川生物医药有限公司 | 一种基于转录组学的中药药理机制分析方法 |
CN111329861A (zh) * | 2020-04-17 | 2020-06-26 | 中国人民解放军总医院 | 苯扎明在制备防治心肌缺血再灌注损伤或缺血性心脏病药物中的应用 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114277134A (zh) * | 2021-10-20 | 2022-04-05 | 上海交通大学医学院附属瑞金医院 | 一种弥漫大b细胞淋巴瘤的分型模型、分型方法和试剂盒 |
CN114277134B (zh) * | 2021-10-20 | 2024-05-28 | 上海交通大学医学院附属瑞金医院 | 一种弥漫大b细胞淋巴瘤的分型模型、分型方法和试剂盒 |
Also Published As
Publication number | Publication date |
---|---|
CN113380326B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190318806A1 (en) | Variant Classifier Based on Deep Neural Networks | |
US9141913B2 (en) | Categorization and filtering of scientific data | |
AU2021257920A1 (en) | Variant classifier based on deep neural networks | |
CN112967753B (zh) | 一种基于纳米孔测序的病原微生物检测系统和方法 | |
CN107066835B (zh) | 一种发现并整合直肠癌相关基因及其功能分析的系统 | |
CN109033748A (zh) | 一种基于多组学的miRNA功能识别方法 | |
CN114708910B (zh) | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 | |
CN114420212A (zh) | 一种大肠杆菌菌株鉴定方法和系统 | |
CN113380326B (zh) | 一种基于pam聚类算法的基因表达数据分析方法 | |
CN114360642A (zh) | 基于基因共表达网络分析的癌症转录组数据处理方法 | |
CN110211634B (zh) | 一种多组学数据联合分析的方法 | |
KR20200102182A (ko) | 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치 | |
JP2012239430A (ja) | 網羅的フラグメント解析における遺伝子同定方法および発現解析方法 | |
CN107038350B (zh) | 一种药物的长非编码rna靶点预测方法和系统 | |
CN115066503A (zh) | 使用批量测序数据指导单细胞测序数据的分析 | |
CN111785319A (zh) | 基于差异表达数据的药物重定位方法 | |
KR20200104672A (ko) | 클러스터링 기법을 이용한 생물종 서식지 추적 방법 및 장치 | |
Gutierrez-Diaz et al. | Systematic computational hunting for small RNAs derived from ncRNAs during dengue virus infection in endothelial HMEC-1 cells | |
Gong et al. | BDLR: lncRNA identification using ensemble learning | |
Zakiev et al. | Statistical Discovery of Transcriptomic Cancer Signatures using Multimodal Local Search | |
Zhao et al. | A computational method for detecting the associations between multiple loci and phenotypes | |
Bernasconi | A Sound and Repeatable Approach to Building Integrated Repositories of Genomic Data | |
Yılmazer | Genome-and tissue-wide analysis of alternative polyadenylation events using clustering and feature learning methods | |
Bernasconi et al. | Scenarios for the Integration of Microarray Gene Expression Profiles in COVID-19–Related Studies | |
Bajalan | Improved methods for virus detection and discovery in metagenomic sequence data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |