CN113947149A - 基因模块群的相似性度量方法、装置、电子设备及存储介质 - Google Patents

基因模块群的相似性度量方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113947149A
CN113947149A CN202111214178.2A CN202111214178A CN113947149A CN 113947149 A CN113947149 A CN 113947149A CN 202111214178 A CN202111214178 A CN 202111214178A CN 113947149 A CN113947149 A CN 113947149A
Authority
CN
China
Prior art keywords
gene
gene module
module
similarity
module group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111214178.2A
Other languages
English (en)
Other versions
CN113947149B (zh
Inventor
张俊鹏
赵春文
李司婧
杨燕婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dali University
Original Assignee
Dali University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dali University filed Critical Dali University
Priority to CN202111214178.2A priority Critical patent/CN113947149B/zh
Publication of CN113947149A publication Critical patent/CN113947149A/zh
Application granted granted Critical
Publication of CN113947149B publication Critical patent/CN113947149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基因模块群的相似性度量方法、装置、电子设备及存储介质,涉及基因识别技术领域。该基因模块群的相似性度量方法包括:获取第一基因模块群和第二基因模块群。根据公式
Figure DDA0003310071060000011
Figure DDA0003310071060000012
计算所述第一基因模块和所述第二基因模块的相似性。根据所述第一基因模块和所述第二基因模块的基因模块相似性,计算得到所述第一基因模块群和所述第二基因模块群的相似性。本发明基于通过给定的公式,在计算第一基因模块群和第二基因模块群的相似性时,将基因互作关系考虑在其中,可以更加精确的度量不同基因模块群之间的相似性。

Description

基因模块群的相似性度量方法、装置、电子设备及存储介质
技术领域
本发明涉及基因识别技术领域,具体而言,涉及一种基因模块群的相似性度量方法、装置、电子设备及存储介质。
背景技术
基因是包含遗传信息的脱氧核糖核酸(Deoxyribonucleic Acid,DNA)或核糖核酸(Ribonucleic Acid,简称RNA)片段,控制着生物体的一切遗传性状。基因通过复制、转录和翻译过程,完成细胞分化、细胞增殖、细胞生长和蛋白质合成等重要生物过程。基因模块对于探究人类生理和病理过程具有重要意义。基因模块在不同生物条件、不同生物组织、不同肿瘤亚型以及不同细胞等内呈现特异性。
通过计算基因模块群的相似性,能够了解不同生物条件、不同生物组织、不同肿瘤亚型以及不同细胞等在基因模块水平下的异质性和共同性程度。度量基因模块群的相似性也有助于了解不同技术与方法在基因模块识别方面的异质性和共同性。
现有方法是基于基因模块内的节点(即基因)单因素来计算基因模块群的相似性。但是,由于基因互作在生物体内是一种普遍的遗传现象,任何生物遗传性状通常是由许多不同基因相互作用的结果,只考虑基因本身获得的相似性结果不能精确的度量基因模块群之间的相似性。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种基因模块群的相似性度量方法、装置、电子设备及存储介质,以更加准确的度量基因模块群之间的相似性。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种基因模块群的相似性度量方法,包括:获取第一基因模块群和第二基因模块群,第一基因模块群中包括至少一个第一基因模块,第二基因模块群中包括至少一个第二基因模块,第一基因模块和第二基因模块中分别包括至少三个基因和至少一条基因互作关系。
根据公式
Figure BDA0003310071040000021
计算第一基因模块和第二基因模块的相似性,其中,Simij为第一基因模块和第二基因模块的基因模块相似性,V(i)为第一基因模块中的基因,V(j)为第二基因模块中的基因,E(i)为第一基因模块中的基因互作关系,E(j)为第二基因模块中的基因互作关系。根据第一基因模块和第二基因模块的基因模块相似性,计算得到第一基因模块群和第二基因模块群的相似性。
一些实施方式中,第一基因模块和第二基因模块的基因模块相似性Simij通过基因模块相似性矩阵[Simij]M×N表示,其中,M为第一基因模块群中第一基因模块的个数,N为第二基因模块群中第二基因模块的个数。
根据第一基因模块和第二基因模块的相似性,计算得到第一基因模块群和第二基因模块群的相似性,包括:根据基因模块相似性矩阵和公式
Figure BDA0003310071040000022
Figure BDA0003310071040000031
Figure BDA0003310071040000032
计算第一基因模块群和第二基因模块群的相似性GSimIJ,其中,rowSim为基因模块相似性矩阵中每行最大值的平均值,colSim为基因模块相似性矩阵中每列最大值的平均值,I为第一基因模块群,J为第二基因模块群。
一些实施方式中,获取第一基因模块群和第二基因模块群,包括:获取基因表达谱数据。通过预设的聚类算法,对基因表达谱数据进行聚类识别,得到第一基因模块群或第二基因模块群。
一些实施方式中,在计算得到第一基因模块群和第二基因模块群的相似性之后,还包括:根据第一基因模块群和第二基因模块群的相似性获取第一基因模块群和第二基因模块群的距离。
第二方面,本发明实施例还提供了一种基因模块群的相似性度量装置,包括:
获取模块,用于获取第一基因模块群和第二基因模块群,第一基因模块群中包括至少一个第一基因模块,第二基因模块群中包括至少一个第二基因模块,第一基因模块和第二基因模块中分别包括至少三个基因和至少一条基因互作关系;
计算模块,用于根据公式
Figure BDA0003310071040000033
计算第一基因模块和第二基因模块的相似性,其中,Simij为第一基因模块和第二基因模块的基因模块相似性,V(i)为第一基因模块中的基因,V(j)为第二基因模块中的基因,E(i)为第一基因模块中的基因互作关系,E(j)为第二基因模块中的基因互作关系;
计算模块,还用于根据第一基因模块和第二基因模块的基因模块相似性,计算得到第一基因模块群和第二基因模块群的相似性。
一些实施方式中,第一基因模块和第二基因模块的基因模块相似性Simij通过基因模块相似性矩阵[Simij]M×N表示,其中,M为第一基因模块群中第一基因模块的个数,N为第二基因模块群中第二基因模块的个数;
计算模块,具体用于根据基因模块相似性矩阵和公式
Figure BDA0003310071040000041
Figure BDA0003310071040000042
Figure BDA0003310071040000043
计算第一基因模块群和第二基因模块群的相似性GSimIJ,其中,rowSim为基因模块相似性矩阵中每行最大值的平均值,colSim为基因模块相似性矩阵中每列最大值的平均值,I为第一基因模块群,J为第二基因模块群。
一些实施方式中,获取模块,具体用于获取基因表达谱数据;
通过预设的聚类算法,对基因表达谱数据进行聚类识别,得到第一基因模块群或第二基因模块群。
一些实施方式中,获取模块,还用于根据第一基因模块群和第二基因模块群的相似性获取第一基因模块群和第二基因模块群的距离。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行上述第一方面任一方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行如上述第一方面任一方法的步骤。
本发明的有益效果是:通过给定的公式,在计算第一基因模块群和第二基因模块群的相似性时,将基因互作关系考虑在其中,可以更加精确的度量不同基因模块群之间的相似性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例提供的基因模块群的相似性度量方法流程示意图;
图2示出了实施例一中的乳腺癌亚型内的基因共表达模块群相似性示意图;
图3示出了实施例二中的不同方法识别的基因模块群相似性示意图;
图4示出了实施例二中的不同方法的聚类分析示意图;
图5为本申请一实施例提供的基因模块群的相似性度量装置的结构示意图;
图6为本申请一实施例提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
图1为本申请一实施例提供的基因模块群的相似性度量方法流程示意图,其中,该方法的执行主体可以是台式电脑、笔记本电脑、服务器、云端服务器、智能终端、平板电脑等具有数据处理能力的设备,在此不做限制。
需要说明的是,虽然在本申请中是以对基因模块群的相似性度量进行了说明,但是本申请提供的方法实质上是一种通用的模块群的相似性或距离的度量方法,本方法还可以应用于度量其他的生物分子(例如蛋白质)和实体模块的相似性。
如图1所示,该方法包括:
S110、获取第一基因模块群和第二基因模块群。
其中,第一基因模块群中包括至少一个第一基因模块,第二基因模块群中包括至少一个第二基因模块,第一基因模块和第二基因模块中分别包括至少三个基因和至少一条基因互作关系。
一些实施方式中,获取第一基因模块群和第二基因模块群时,可以先获取基因表达谱数据,然后通过预设的聚类算法,对基因表达谱数据进行聚类识别,得到第一基因模块群或第二基因模块群。其中,基因表达谱数据可以通过国际癌症基因表达谱数据库(TheCancer Genome Atlas,TCGA)中获取匹配样本的微小核糖核酸(Micro Ribonucleic Acid,miRNA)和信使核糖核酸(Messenger Ribonucleic Acid,mRNA)表达谱数据。预设的聚类算法可以包括单向聚类算法或双向聚类算法。单向聚类算法可以包括共表达网络分析法(Weighted Gene Co-expression nNetwork analysis,WGCNA)、K均值聚类法(K-meansclustering algorithm)、层次聚类法以及模糊C均值聚类法(Fuzzy C-means,FCM)等。双向聚类算法则可以包括双聚类因子分析法(Factor Analysis for Bicluster Acquisition,FABIA)等。
作为示例,通过WGCNA法进行聚类时,可以先根据基因表达谱数据,计算基因的皮尔逊(Pearson)相关系数绝对值来构建基因共表达相似矩阵S。为了选择合适软阈值(soft-thresholding),可以将相似性矩阵S转化为邻接矩阵A,WGCNA可以采用无标度拓扑标准选择软阈值,最小无标度拓扑拟合指数R2通常不小于0.8。基于邻接矩阵A,WGCNA可以生成拓扑重叠矩阵(Topological Overlap Matrix,TOM)W。即,得到TOM非相似性矩阵D=1-W。为了识别基因共表达模块,WGCNA可以采用最优层次聚类方法对TOM非相似性矩阵D进行聚类。所识别的基因共表达模块具有高拓扑重叠性。
另一些实施方式中,通过K均值聚类法进行聚类时,K均值聚类法可以根据基因表达谱数据随机选择K个基因作为初始质心,其中K为聚类或模块个数。然后,可以将每个基因指派到最近的质心,指派到同一个质心的基因集为一个聚类或模块。然后,根据指派到聚类或模块的基因,更新每个聚类或模块的质心。重复指派和更新步骤,直到质心不发生变化为止。
还有一些实施方式中,层次聚类法分包括凝聚层次聚类和分裂层次聚类,本示例中以通过凝聚层次聚类进行说明。获取基因表达谱数据,凝聚层次聚类技术从基因作为个体聚类或模块开始,每一步合并两个最邻近的聚类或模块。通常用质心代表聚类或模块,聚类或模块的邻近度定义为聚类或模块质心之间的邻近度。
FCM聚类法是K均值聚类的模糊版本。一些实施方式中,通过FCM聚类法进行聚类时,先获取基因表达谱数据,FCM聚类法选择一个初始模糊伪划分(例如K个模糊伪划分)。其中,K为聚类或模块个数。使用模糊伪划分,计算每个基因聚类或模块的质心。然后重新计算模糊伪划分,直到质心不发生变化为止。在FCM聚类法中,计算模糊伪划分相当于K均值聚类法中的指派步骤。
另一些实施方式中,通过FABIA双聚类因子分析法进行聚类时,FABIA能够根据获取到的基因表达谱数据,同时对基因和样本进行聚类。FABIA是一个乘法模型,能够识别样本和基因模式之间的线性关系。并且,它能够借助重尾馏分(heavy tails)方式来捕获非高斯数据分布。FABIA嵌入在一个贝叶斯框架里面,并且使用期望最大(ExpectationMaximizatio,EM)算法和变分法对模型进行选择。FABIA根据信息内容(informationcontent)对双聚类结果进行排序,从而能很好的区分真实双聚类结果和虚假双聚类结果。
S120、根据公式
Figure BDA0003310071040000081
计算第一基因模块和第二基因模块的相似性。
其中,Simij为第一基因模块和第二基因模块的基因模块相似性,V(i)为第一基因模块中的基因(也称为第一基因模块中的一个节点),V(j)为第二基因模块中的基因(也称为第二基因模块中的一个节点),E(i)为第一基因模块中的基因互作关系(也称为第一基因模块中的一个边),E(j)为第二基因模块中的基因互作关系(也称为第二基因模块中的一个边)。根据第一基因模块和第二基因模块的基因模块相似性,计算得到第一基因模块群和第二基因模块群的相似性。|V(i)∩V(j)|为第一基因模块和第二基因模块中相同基因的个数。|E(i)∩E(j)|为第一基因模块和第二基因模块中相同基因互作关系的个数。min(|V(i)|,|V(j)|)为第一基因模块和第二基因模块中小基因个数少的基因模块,min(|E(i)|,|E(j)|)第一基因模块和第二基因模块中基因互作关系少的基因模块。
需要说明的是,Simij的取值范围为[01],Simij的值越大表明基因模块i和j越相似。
S130、根据第一基因模块和第二基因模块的基因模块相似性,计算得到第一基因模块群和第二基因模块群的相似性。
一些实施方式中,第一基因模块和第二基因模块的基因模块相似性Simij通过基因模块相似性矩阵[Simij]M×N表示,其中,M为第一基因模块群中第一基因模块的个数,N为第二基因模块群中第二基因模块的个数。
根据第一基因模块和第二基因模块的相似性,计算得到第一基因模块群和第二基因模块群的相似性,包括:根据基因模块相似性矩阵和公式
Figure BDA0003310071040000091
Figure BDA0003310071040000101
Figure BDA0003310071040000102
计算第一基因模块群和第二基因模块群的相似性GSimIJ
其中,rowSim为基因模块相似性矩阵中每行最大值的平均值,colSim为基因模块相似性矩阵中每列最大值的平均值,i·表示第i行的所有列,·j表示第j列的所有行。I为第一基因模块群,J为第二基因模块群。GSimIJ的取值范围为[01],GSimIJ的值越大表明第一基因模块群和第二基因模块群越相似。
还有一些事实方式中,还可以根据第一基因模块群和第二基因模块群的相似性获取第一基因模块群和第二基因模块群的距离GDisIJ
一些实施方式中,GDisIJ=(1-GSimIJ),GDisIJ的取值范围也为[01],GDisIJ的值越大表明第一基因模块群和第二基因模块群差异越大。GSimIJ和GDisIJ分别能够表达基因模块群之间的共同性和异质性。
在此,通过度量不同乳腺癌亚型中的基因模块群相似性,对基因模块群的相似性度量方法进行说明。
实施例一:
首先,从癌症基因表达谱数据库TCGA(The Cancer GenomeAtla)中获取乳腺癌匹配样本的miRNA和mRNA表达谱数据。通过去除重复项和没有基因名称的miRNA和mRNA后,获得690个乳腺癌匹配样本的894个miRNA,记为D1={G1,1;G1,2;…;G1,690}∈R690×894,还获得了19068个mRNA表达谱数据,记为D2={G2,1;G2,2;…;G2,690}∈R690×19068,在本实施例中,基因代表miRNA或mRNA。
然后,可以基于获取到的基因表达谱数据预测乳腺癌亚型。
基于上述乳腺癌数据,使用PAM50分子亚型分类模型将690个乳腺癌样本分为五种亚型:LuminalA型(LumA)、LuminalB型(LumB)、基底细胞型(Basal)、HER2过表达型(Her2)和正常基因表达型(Normal)。LumA、LumB、Basal、Her2和Normal五种亚型的乳腺癌样本数分别为277、190、124、69和30。五种乳腺癌亚型的894个miRNAs表达谱数据分别表示为:
D1 (LumA)={G1,1;G1,2;…;G1,690}∈R277×894
D1 (LumB)={G1,1;G1,2;…;G1,690}∈R190×894
D1 (Basal)={G1,1;G1,2;…;G1,690}∈R124×894
D1 (Her2)={G1,1;G1,2;…;G1,690}∈R69×894
D1 (Normal)={G1,1;G1,2;…;G1,690}∈R30×894
五种乳腺癌亚型的19068个mRNAs表达谱数据分别表示为:
D2 (LumA)={G1,1;G1,2;…;G1,690}∈R277×19068
D2 (LumB)={G1,1;G1,2;…;G1,690}∈R190×19068
D2 (Basal)={G1,1;G1,2;…;G1,690}∈R124×19068
D2 (Her2)={G1,1;G1,2;…;G1,690}∈R69×19068
D2 (Normal)={G1,1;G1,2;…;G1,690}∈R30×19068
接着,使用WGCNA共表达网络分析法来识别每种乳腺癌亚型内的基因模块群。其中,WGCNA方法中的最小无标度拓扑拟合指数R2设定为0.8。每个miRNA或mRNA共表达模块的miRNA或mRNA个数都不少于3个。在LumA、LumB、Basal、Her2和Normal五种乳腺癌亚型miRNA表达谱数据中,识别出五个miRNA共表达模块群,分别包含2、9、7、9和6个miRNA共表达模块。在LumA、LumB、Basal、Her2和Normal五种乳腺癌亚型mRNA表达谱数据中,也识别出五个mRNA共表达模块群,分别包含4、3、5、2和5个mRNA共表达模块。默认情况下,每个miRNA或mRNA共表达模块内的所有miRNAs或mRNAs彼此之间相互作用。
最后,基于上述步骤识别到的五个乳腺癌亚型基因模块群,计算五个乳腺癌亚型miRNA共表达模块群之间和mRNA共表达模块群之间的相似性。相似性值为1代表基因模块群完全相同,相似性值为0代表基因模块群完全不同。
图2示出了实施例一中的乳腺癌亚型内的基因共表达模块群相似性示意图。
在本实施例中,五种乳腺癌亚型内的miRNA或mRNA共表达模块群相似性都为0(如图2所示),该结果表明:每种乳乳腺癌亚型在基因模块水平下完全不同,具有特异性。
实施例二:
在本实施例中,获取基因表达谱数据的过程与实施例一相同,在此不做赘述。
在本实施例中,基于获取到的基因表达谱数据采用五种聚类方法(包括WGCNA法、K均值聚类法、层次聚类法、FCM聚类法以及FABIA双聚类因子分析法)分别识别基因的共表达模块。其中,WGCNA方法中的最小无标度拓扑拟合指数R2设定为0.8,K均值聚类法、层次聚类法、FCM聚类法以及FABIA双聚类因子分析法的最大聚类个数设置为10,其他参数都是默认设置。每个miRNA或mRNA共表达模块的miRNA或mRNA个数都不少于3个。五种方法在乳腺癌miRNA表达谱数据中,识别出五个miRNA共表达模块群,分别包含8、10、5、10和4个miRNA共表达模块。五种方法在乳腺癌mRNA表达谱数据中,也识别出五个mRNA共表达模块群,分别包含61、10、5、10和10个mRNA共表达模块。默认情况下,每个miRNA或mRNA共表达模块内的所有miRNAs或mRNAs彼此之间相互作用。
然后,基于上述步骤中五种方法识别的基因模块群,计算五种方法识别的miRNA共表达模块群之间和mRNA共表达模块群之间的相似性,得到的相似性矩阵分别为GSimmiR(miRNA之间的相似性矩阵)和GSimmR(mRNA之间的相似性矩阵)。
最后,基于GSimmiR和GSimmR进行进一步计算不同方法识别的基因模块群距离矩阵:
GDismiR=1-GSimmiR
GDismR=1-GSimmR
基于不同方法识别的基因模块群距离矩阵(GDismiR和GDismR),利用层次聚类法对五种方法进行聚类分析。
图3示出了实施例二中的不同方法识别的基因模块群相似性示意图。
参考图3,本实施例中,五种不同方法识别的miRNA或mRNA共表达模块群相似性都小于0.7,该结果表明:每种方法在基因模块水平下都具有差异性。基于miRNA共表达模块群距离矩阵进行聚类分析,五种不同方法被分为3种不同类别。其中,K均值聚类和FCM聚类同属一个类别,层次聚类和FABIA同属一个类别,WGCNA单独属于一个类别。基于mRNA共表达模块群距离矩阵进行聚类分析,五种不同方法被分为2种不同类别。其中,FCM聚类、层次聚类和FABIA同属一个类别,WGCNA和K均值聚类同属一个类别。
该结果表明:基于不同基因表达谱数据,五种不同方法聚类效果也不同。
图4示出了实施例二中的不同方法的聚类分析示意图。
参考图4,五种乳腺癌亚型在基因模块水平下相似性值为0,因此具有完全异质性。另外,五种方法在基因模块水平下异质性和共同性并存,并且相似性大的一类方法同属一个类别。综上所述,本发明提出的基因模块群相似性度量方法,有助于了解不同技术方法、不同生物条件、不同生物组织、不同肿瘤亚型以及不同细胞等在基因模块水平下的异质性和共同性,为人类恶性肿瘤精准诊断与治疗提供技术支持,具有重要的生物学意义。
图5为本申请一实施例提供的基因模块群的相似性度量装置的结构示意图,如图5所示,
一种基因模块群的相似性度量装置,包括:
获取模块21,用于获取第一基因模块群和第二基因模块群,第一基因模块群中包括至少一个第一基因模块,第二基因模块群中包括至少一个第二基因模块,第一基因模块和第二基因模块中分别包括至少三个基因和至少一条基因互作关系;
计算模块22,用于根据公式
Figure BDA0003310071040000151
计算第一基因模块和第二基因模块的相似性,其中,Simij为第一基因模块和第二基因模块的基因模块相似性,V(i)为第一基因模块中的基因,V(j)为第二基因模块中的基因,E(i)为第一基因模块中的基因互作关系,E(j)为第二基因模块中的基因互作关系;
计算模块22,还用于根据第一基因模块和第二基因模块的基因模块相似性,计算得到第一基因模块群和第二基因模块群的相似性。
一些实施方式中,第一基因模块和第二基因模块的基因模块相似性Simij通过基因模块相似性矩阵[Simij]M×N表示,其中,M为第一基因模块群中第一基因模块的个数,N为第二基因模块群中第二基因模块的个数;
计算模块22,具体用于根据基因模块相似性矩阵和公式
Figure BDA0003310071040000152
Figure BDA0003310071040000153
Figure BDA0003310071040000154
计算第一基因模块群和第二基因模块群的相似性GSimIJ,其中,rowSim为基因模块相似性矩阵中每行最大值的平均值,colSim为基因模块相似性矩阵中每列最大值的平均值,I为第一基因模块群,J为第二基因模块群。
一些实施方式中,获取模块21,具体用于获取基因表达谱数据;
通过预设的聚类算法,对基因表达谱数据进行聚类识别,得到第一基因模块群或第二基因模块群。
一些实施方式中,获取模块21,还用于根据第一基因模块群和第二基因模块群的相似性获取第一基因模块群和第二基因模块群的距离。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnalprocessor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图6为本申请一实施例提供的电子设备结构示意图。
如图6所示,该电子设备包括:处理器31、计算机可读存储介质32和总线33,其中:
电子设备可以包括一个或多个处理器31、总线33和存储介质32,其中,计存储介质32用于存储机器可读指令,处理器31通过总线33与存储介质32通信连接,处理器31执行存储介质32存储的机器可读指令,以执行上述方法实施例。
电子设备可以是通用计算机、服务器或移动终端等,在此不做限制。电子设备用于实现本申请的上述方法实施例。
需要说明的是,处理器31可以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(GraphicsProcessing Unit,GPU)、物理处理单元(Physics ProcessingUnit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable GateArray,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
存储介质32可以包括:包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory,ROM)等,或其任意组合。作为举例,大容量存储器可以包括磁盘、光盘、固态驱动器等;可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等;易失性读写存储器可以包括随机存取存储器(Random Access Memory,RAM);RAM可以包括动态RAM(Dynamic Random Access Memory,DRAM),双倍数据速率同步动态RAM(Double Date-Rate Synchronous RAM,DDR SDRAM);静态RAM(Static Random-AccessMemory,SRAM),晶闸管RAM(Thyristor-Based Random Access Memory,T-RAM)和零电容器RAM(Zero-RAM)等。作为举例,ROM可以包括掩模ROM(Mask Read-Only Memory,MROM)、可编程ROM(Programmable Read-Only Memory,PROM)、可擦除可编程ROM(ProgrammableErasable Read-only Memory,PEROM)、电可擦除可编程ROM(Electrically ErasableProgrammable read only memory,EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。
为了便于说明,在电子设备中仅描述了一个处理器31。然而,应当注意,本申请中的电子设备还可以包括多个处理器31,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备的处理器31执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
可选地,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行如上述方法的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基因模块群的相似性度量方法,其特征在于,包括:
获取第一基因模块群和第二基因模块群,所述第一基因模块群中包括至少一个第一基因模块,所述第二基因模块群中包括至少一个第二基因模块,所述第一基因模块和所述第二基因模块中分别包括至少三个基因和至少一条基因互作关系;
根据公式
Figure FDA0003310071030000011
计算所述第一基因模块和所述第二基因模块的相似性,其中,Simij为所述第一基因模块和所述第二基因模块的基因模块相似性,V(i)为所述第一基因模块中的基因,V(j)为所述第二基因模块中的基因,E(i)为所述第一基因模块中的基因互作关系,E(j)为所述第二基因模块中的基因互作关系;
根据所述第一基因模块和所述第二基因模块的基因模块相似性,计算得到所述第一基因模块群和所述第二基因模块群的相似性。
2.根据权利要求1所述的方法,其特征在于,所述第一基因模块和所述第二基因模块的基因模块相似性Simij通过基因模块相似性矩阵[Simij]M×N表示,其中,M为所述第一基因模块群中所述第一基因模块的个数,N为所述第二基因模块群中所述第二基因模块的个数;
所述根据所述第一基因模块和所述第二基因模块的相似性,计算得到所述第一基因模块群和所述第二基因模块群的相似性,包括:
根据所述基因模块相似性矩阵和公式
Figure FDA0003310071030000021
Figure FDA0003310071030000022
Figure FDA0003310071030000023
计算所述第一基因模块群和所述第二基因模块群的相似性GSimIJ,其中,rowSim为所述基因模块相似性矩阵中每行最大值的平均值,colSim为所述基因模块相似性矩阵中每列最大值的平均值,I为所述第一基因模块群,J为所述第二基因模块群。
3.根据权利要求1或2所述的方法,其特征在于,所述获取第一基因模块群和第二基因模块群,包括:
获取基因表达谱数据;
通过预设的聚类算法,对所述基因表达谱数据进行聚类识别,得到所述第一基因模块群或所述第二基因模块群。
4.根据权利要求1或2述的方法,其特征在于,在计算得到所述第一基因模块群和所述第二基因模块群的相似性之后,还包括:
根据所述第一基因模块群和所述第二基因模块群的相似性获取所述第一基因模块群和所述第二基因模块群的距离。
5.一种基因模块群的相似性度量装置,其特征在于,包括:
获取模块,用于获取第一基因模块群和第二基因模块群,所述第一基因模块群中包括至少一个第一基因模块,所述第二基因模块群中包括至少一个第二基因模块,所述第一基因模块和所述第二基因模块中分别包括至少三个基因和至少一条基因互作关系;
计算模块,用于根据公式
Figure FDA0003310071030000031
计算所述第一基因模块和所述第二基因模块的相似性,其中,Simij为所述第一基因模块和所述第二基因模块的基因模块相似性,V(i)为所述第一基因模块中的基因,V(j)为所述第二基因模块中的基因,E(i)为所述第一基因模块中的基因互作关系,E(j)为所述第二基因模块中的基因互作关系;
所述计算模块,还用于根据所述第一基因模块和所述第二基因模块的基因模块相似性,计算得到所述第一基因模块群和所述第二基因模块群的相似性。
6.根据权利要求5所述的装置,其特征在于,所述第一基因模块和所述第二基因模块的基因模块相似性Simij通过基因模块相似性矩阵[Simij]M×N表示,其中,M为所述第一基因模块群中所述第一基因模块的个数,N为所述第二基因模块群中所述第二基因模块的个数;
所述计算模块,具体用于根据所述基因模块相似性矩阵和公式
Figure FDA0003310071030000032
Figure FDA0003310071030000033
Figure FDA0003310071030000034
计算所述第一基因模块群和所述第二基因模块群的相似性GSimIJ,其中,rowSim为所述基因模块相似性矩阵中每行最大值的平均值,colSim为所述基因模块相似性矩阵中每列最大值的平均值,I为所述第一基因模块群,J为所述第二基因模块群。
7.根据权利要求5或6所述的装置,其特征在于,所述获取模块,具体用于获取基因表达谱数据;
通过预设的聚类算法,对所述基因表达谱数据进行聚类识别,得到所述第一基因模块群或所述第二基因模块群。
8.根据权利要求5或6述的装置,其特征在于,所述获取模块,还用于根据所述第一基因模块群和所述第二基因模块群的相似性获取所述第一基因模块群和所述第二基因模块群的距离。
9.一种电子设备,其特征在于,包括处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行权利要求1-4任一项所述的方法。
CN202111214178.2A 2021-10-19 2021-10-19 基因模块群的相似性度量方法、装置、电子设备及存储介质 Active CN113947149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111214178.2A CN113947149B (zh) 2021-10-19 2021-10-19 基因模块群的相似性度量方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111214178.2A CN113947149B (zh) 2021-10-19 2021-10-19 基因模块群的相似性度量方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113947149A true CN113947149A (zh) 2022-01-18
CN113947149B CN113947149B (zh) 2022-08-23

Family

ID=79331305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111214178.2A Active CN113947149B (zh) 2021-10-19 2021-10-19 基因模块群的相似性度量方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113947149B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6468476B1 (en) * 1998-10-27 2002-10-22 Rosetta Inpharmatics, Inc. Methods for using-co-regulated genesets to enhance detection and classification of gene expression patterns
CN103778349A (zh) * 2014-01-29 2014-05-07 思博奥科生物信息科技(北京)有限公司 一种基于功能模块的生物分子网络分析的方法
US20170277826A1 (en) * 2016-03-27 2017-09-28 Insilico Medicine, Inc. System, method and software for robust transcriptomic data analysis
CN109545278A (zh) * 2018-12-18 2019-03-29 北京林业大学 一种鉴定植物lncRNA与基因互作的方法
CN110060730A (zh) * 2019-04-03 2019-07-26 安徽大学 一种基因模块分析方法
CN111383709A (zh) * 2020-03-09 2020-07-07 电子科技大学 ceRNA竞争模块识别方法、装置、电子设备及存储介质
CN112071362A (zh) * 2020-08-03 2020-12-11 西安理工大学 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法
CN113066522A (zh) * 2021-03-23 2021-07-02 浙江大学 一种基于模块化识别的基因网络推理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6468476B1 (en) * 1998-10-27 2002-10-22 Rosetta Inpharmatics, Inc. Methods for using-co-regulated genesets to enhance detection and classification of gene expression patterns
CN103778349A (zh) * 2014-01-29 2014-05-07 思博奥科生物信息科技(北京)有限公司 一种基于功能模块的生物分子网络分析的方法
US20170277826A1 (en) * 2016-03-27 2017-09-28 Insilico Medicine, Inc. System, method and software for robust transcriptomic data analysis
CN109545278A (zh) * 2018-12-18 2019-03-29 北京林业大学 一种鉴定植物lncRNA与基因互作的方法
CN110060730A (zh) * 2019-04-03 2019-07-26 安徽大学 一种基因模块分析方法
CN111383709A (zh) * 2020-03-09 2020-07-07 电子科技大学 ceRNA竞争模块识别方法、装置、电子设备及存储介质
CN112071362A (zh) * 2020-08-03 2020-12-11 西安理工大学 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法
CN113066522A (zh) * 2021-03-23 2021-07-02 浙江大学 一种基于模块化识别的基因网络推理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUNPENG ZHANG ET AL.: "Exploring cell-specific miRNA regulation with single-cell miRNA-mRNA co-sequencing data", 《BIORXIV》 *

Also Published As

Publication number Publication date
CN113947149B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN109994200B (zh) 一种基于相似度融合的多组学癌症数据整合分析方法
Van der Laan et al. A new algorithm for hybrid hierarchical clustering with visualization and the bootstrap
US7239986B2 (en) Methods for classifying samples and ascertaining previously unknown classes
Marczyk et al. Adaptive filtering of microarray gene expression data based on Gaussian mixture decomposition
CN111913999B (zh) 基于多组学与临床数据的统计分析方法、系统和存储介质
CA2300639A1 (en) Methods and apparatus for analyzing gene expression data
Larsson et al. Comparative microarray analysis
CN110322926B (zh) miRNA海绵模块的识别方法和装置
Sharmila et al. An artificial immune system-based algorithm for abnormal pattern in medical domain
CN114613430A (zh) 一种假阳性核苷酸变异位点的过滤方法及计算设备
McShane et al. Statistical issues in the design and analysis of gene expression microarray studies of animal models
CN113947149B (zh) 基因模块群的相似性度量方法、装置、电子设备及存储介质
Park et al. Evolutionary fuzzy clustering algorithm with knowledge-based evaluation and applications for gene expression profiling
Dopazo Microarray data processing and analysis
CN115148291A (zh) 单样本ceRNA竞争模块识别方法、装置、电子设备及存储介质
Tasoulis et al. Unsupervised clustering of bioinformatics data
Wirth et al. Analysis of microRNA expression using machine learning
Chen et al. Microarray gene expression
Mythili et al. CTCHABC-hybrid online sequential fuzzy Extreme Kernel learning method for detection of Breast Cancer with hierarchical Artificial Bee
CN113724789A (zh) 单样本ceRNA网络识别方法、装置、电子设备及存储介质
CN114171199A (zh) 脑恶性肿瘤患者生存预测方法、系统、终端及存储介质
CN111816259A (zh) 基于网络表示学习的不完整多组学数据集成方法
CN110751983A (zh) 一种筛选特征mRNA用于诊断早期肺癌的方法
Mattioli et al. Application of graph database in the storage of heterogeneous Omics data for the treatment in bioinformatics
Yue et al. State-of-the-art of cluster analysis of gene expression data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant