CN107992720A - 基于共表达网络的癌症靶向标志物测绘方法 - Google Patents

基于共表达网络的癌症靶向标志物测绘方法 Download PDF

Info

Publication number
CN107992720A
CN107992720A CN201711336559.1A CN201711336559A CN107992720A CN 107992720 A CN107992720 A CN 107992720A CN 201711336559 A CN201711336559 A CN 201711336559A CN 107992720 A CN107992720 A CN 107992720A
Authority
CN
China
Prior art keywords
mrow
msub
node
gene
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711336559.1A
Other languages
English (en)
Other versions
CN107992720B (zh
Inventor
陈晋音
郑海斌
王桢
宣琦
应时彦
李南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201711336559.1A priority Critical patent/CN107992720B/zh
Publication of CN107992720A publication Critical patent/CN107992720A/zh
Application granted granted Critical
Publication of CN107992720B publication Critical patent/CN107992720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种基于共表达网络的癌症靶向标志物测绘方法,包括以下步骤:1)构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵;2)提取共表达基础网络的特征,即将拓扑网络的各个基因节点转换为特征向量作为网络的特征值;3)训练神经网络模型,根据游走序列,进行神经网络模型参数的训练;4)进行癌症靶向标志物测绘,根据基于密度峰的聚类中心自适应算法进行靶向基因社区的自动发现。本发明提供一种具有良好的普适性和精度,采用共表达基础网络构建和节点特征向量提取以及基因社区自动发现实现目标基因测绘的方法。

Description

基于共表达网络的癌症靶向标志物测绘方法
技术领域
本发明属于生物信息技术领域,具体涉及一种癌症靶向目标基因测绘方法。
背景技术
随着近年来科技以及医疗水平的不断进步,人们对抗疾病的能力与信心不断增强,但其中仍然存在许多缺陷与技术障碍。根据世界卫生组织的癌症报告估计,过去五年内中国癌症发病人数约占全球发病总人数的五分之一,而因罹患癌症死亡的人数则已超过全球癌症死亡总人数的四分之一。癌症死亡率居高不下,一个重要原因在于我国癌症发现较多处于中晚期。因此,人们在不断研究新的癌症治疗方法的同时,对于癌症靶向基因的检测,关键基因的提取以及相关癌症标志物的鉴定需要投入更多的科研精力。
基因共表达网络分析作为一种挖掘和呈现基因在不同患病样本中表达形式的有效方法,可以搜索高度共表达的基因模块,而模块中包含的关键基因则可用于该模块的信息提炼。研究人员能够以此深入探讨基因模块或其关键基因与实际样本表型之间的关联关系。而在实际应用层面,基因共表达网络构建的基础——加权基因共表达网络构建(WGCNA)算法,已被用于复杂疾病的候选标记或药物靶点的鉴定和多项疾病的研究,如家族性混合型高脂血症、自闭症、阿尔兹海默症的关联基因、生物学通路和肿瘤治疗靶点的鉴定与测绘。在胶质母细胞瘤的研究过程中,研究者利用加权基因共表达网络成功挖掘得到与已知癌症相关模块高度重叠的基因共表达模块,而其中的一个关键基因被证实为该治疗的靶点基因。在骨密度的研究中,通过对不同骨密度妇女的单细胞核mRNA基因表达数据构建共表达网络,发现了与骨密度存在显著关联关系的模块,该结论也同样得到了相关遗传学研究结果的支持。
综上所述,深入理解基因共表达网络与WGCNA算法的基本原理,熟练掌握该方法,在其基础上进行创新与改进,并将其运用到实际的临床科学研究中,具有极其重要的理论与实践意义。
发明内容
针对共表达网络的复杂性问题,本发明通过计算基因间表达水平的相关系数构建基础网络,利用二阶随机游走与神经网络模型训练得到网络节点的特征向量,并设计聚类中心自适应算法进行靶向基因社区的自动发现。
为了解决上述技术问题本发明提供如下的技术方案:
一种高效的基于共表达网络的癌症靶向标志物测绘方法,所述方法包括以下步骤:
1)构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵,过程如下:
1.1)将已经经过预处理与筛选的特征基因的基因表达数据作为构建共表达基础网络的源数据;
1.2)计算邻接矩阵,使用基因间表达水平的相关系数的幂指数加权值作为共表达的邻接矩阵,表示为Amatrix=[aij],计算公式如下:
式(1)中,Mpool3表示候选基因个数,即特征基因的数量;cor(·,·)表示基因i与基因j之间的相关系数;β表示加权幂指数,β的值根据无标度网络原则确定:即出现连接度为k的节点个数与该节点出现的概率p(k)反比于k的τ次方,且此时的相关系数需大于某一阈值thre(一般取thre=0.8);
1.3)计算拓扑矩阵,考虑基因与其它所有基因间的邻接关系,将邻接矩阵Amatrix转换为拓扑矩阵Ωmatrix=[ωij],计算公式如下:
式(2)中,lij=∑uaiuauj表示与基因i、j都存在连边的基因u的邻接系数乘积和,ki=∑uaiu表示与基因i单独连接的基因u的邻接系数和,kj=∑uaju表示与基因j单独连接的基因u的邻接系数和;在与基因i和j之间无直接连接,且无任何其它的基因将这两个基因间接连接的情况下,取ωij=0;
2)提取共表达基础网络的特征,即将拓扑网络的各个基因节点转换为特征向量作为网络的特征值,过程如下:
2.1)根据步骤1.3)中得到的拓扑矩阵确定共表达网络的基本结构;
2.2)针对网络中的每个节点进行二阶随机游走,节点总数表示为N,对于一个初始的头结点nu,定义游走长度为lrandomWalk,Ci表示游走中的第i个节点,并以C0=nu开始,Ci的生成满足以下分布:
式(3)中,x为下一步可能游走的节点,ν为当前停留的节点,πvx表示节点v与x间未标准化的转移概率,Z表示标准化常数;对于Ci-2=t,t表示已游走的上一个节点,定义πvx=αpq(t,x),其计算公式为:
式(4)中,α表示带p、q参数的偏置量,dtx表示节点t与x间的最短路径,且dtx∈{0,1,2};为了避免相邻节点间的重复游走并确保游走的范围尽可能大,可将参数p设置为一个较大值(一般取p>1),将q设置为一个较小值(一般取q<1);若πvx相等,则随机选择一个节点进行游走;
2.3)根据步骤2.2)将网络中的每个节点作为头结点进行游走,得到N条长度为lrandomWalk的游走序列;
3)训练神经网络模型,根据步骤2.3)中得到的游走序列,进行神经网络模型参数的训练,过程如下:
3.1)将网络中的每一个基因节点表示成实数形式的分布式特征向量,同时使用游走序列中的节点的分布式特征向量来表示网络节点间的连接概率函数;
3.2)学习分布式特征向量与概率函数的参数,其中的训练数据集为步骤2.3)中得到的N条游走序列;以一条游走序列为例,对序列中重复游走的节点仅保留第一个,处理后得到新的节点序列表示为{W1,W2,...,WT},WT∈V,其中V是节点集合,即大小为N的有限集合;训练目标是找到一个良好的模型,使得该模型满足唯一的约束条件为:
式(5)中,函数f(Wt-1,···,Wt-n+1)可以分解为两个部分:第一部分为映射H(·),其中H(i)表示节点集合中的每个节点的分布式特征向量,H实际上是一个由自由参数构成的|V|*m矩阵,其中m为自定义的向量维度;第二部分为函数g(·),该函数将输入的节点特征向量(H(Wt-n+1),···,H(Wt-1))映射为节点Wt前面n-1个节点的条件概率分布,即:
f(i,Wt-1,···,Wt-n+1)=g(i,H(Wt-1),···,H(Wt-n+1)) (6)
当寻找得到满足带惩罚项的训练序列的对数似然率最大的θ,则训练结束,即:
神经网络的组成包括一个隐藏层,一个映射层,以及一个可选的直连层;最底层是单一的节点,表示成one-hot编码形式,即将节点表示成一个很长的向量,向量的分量只有一个1,其他全为0,1所对应的位置就是该节点在新的节点序列中的索引,向量长度为向量集的长度|V|;然后每个one-hot编码的向量分别与投影矩阵H相乘,则原来长度为|V|的one-hot向量,经过线性变换以后,缩短为一个长度为m的向量,其中m是预先设置的特征个数,即向量的维度,向量维度一般为2个数量级;投影完成以后,将所有的特征向量按照顺序首尾相连,形成一个长度为m*(n-1)的向量,以节点向量作为隐藏层的输入,隐藏层的激活函数取为双曲正切函数tanh(·);输出层接受隐藏层的输出作为输入,经过softmax(·)函数进行转换,得到最终的输出P为:
式(8)中,y=b+Wx+Utanh(d+Kx);双曲正切函数逐个应用于隐藏层的各个单元;当神经网络节点间没有直连的时候,W=0;x是首尾相连的特征向量,即:
x=(H(Wt-1),H(Wt-2),···,H(Wt-n+1)) (9)
3.3)训练结束以后,矩阵H就是需要的节点特征向量,每一行代表该位置的节点的向量;
4)进行癌症靶向标志物测绘,根据基于密度峰的聚类中心自适应算法进行靶向基因社区的自动发现,过程如下:
4.1)将步骤3)得到的特征向量作为输入;
4.2)定义待聚类的向量矩阵其中xi表示矩阵的每一行,即步骤3.3)中该位置的节点的向量,相应指标集定义为IH={1,2,...,N},任意两行向量xi和xj之间的欧式距离定义为:
式(10)中,m表示向量的维度;对于H中的任一向量xi,定义其对应节点的局部密度ρi表示H中与xi之间的距离小于dc的向量个数,即:
式(11)中,dc>0表示截断距离,此处指定dc为模长最大与模长最小的两个向量xmax与xmin之间欧式距离的2%,即:
dc=0.02*dist(xmax,xmin) (12)
表示的一个降序排列下标序,即满足ρq1≥ρq2≥···≥ρqN,则可定义对应向量的距离δi为:
4.3)对于H中的每一行向量,计算其对应的密度值和距离值(ρii),i∈IS;根据得到的绘制决策图(以ρ为横轴,δ为纵轴),自动确定密度值和距离值都较大的基因节点作为聚类中心,对剩余的基因节点按照距离最近原则进行归类得到不同的基因模块。
进一步,所述步骤3)中,将步骤2)中得到的游走序列作为神经网络训练的训练集,其处理过程为:对每条游走序列进行节点剔除,即对于一条序列中重复出现的节点仅保留第一个,完成后得到新的节点序列。
更进一步,在所述步骤3)中,由于步骤2)中得到的游走序列不能保证将整个网络完全遍历,因此新的节点序列不包含所有节点,即得到的节点特征向量不完整;为了保证每条游走序列都是以网络中的不同节点作为初始头节点,对整个网络进行N次重复游走,重复游走策略为:对于每次训练得到的矩阵H,只选取第一条,即该游走序列起始节点的特征向量,以N条游走序列作为N个训练集,可得到N个矩阵,选取每个矩阵的第一条,即可得到N条特征向量,分别对应于N个初始头节点。
再进一步,在所述步骤4)中,在完成社区发现后,计算总网络和各个子网络的特征值,如平均聚类系数、平均介数等,并结合临床数据验证具有较高网络特征的基因模块与研究人员关注的表现型之间的相关性,完成对癌症靶向标志物的测绘。
本发明的技术构思为:基于共表达网络的癌症靶向标志物测绘方法,通过对网络连续特征的学习,自动查找癌症靶向基因模块。首先构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵,并确定共表达网络的基本结构,再利用二阶随机游走与神经网络模型学习得到共表达基础网络中各个基因节点的特征向量。将基因节点的特征向量作为输入值,根据基于密度峰的聚类中心自适应算法进行靶向基因社区的自动发现。计算网络的相关特征值,同时结合临床数据验证具有较高网络特征的基因模块与研究人员关注的表现型之间的相关性,完成癌症靶向标志物的测绘。
本发明的有益效果主要表现在:发现的共表达模块与动态剪切算法得到的共表达网络的吻合度十分高,说明本发明具有较好的生物信息可解释性。在真实数据上的实验结果表明,该算法具有良好的适用性和精度,能够大大缩小潜在癌症标志物的检测范围,为生物学领域的实验提供指导。
附图说明
图1是本文算法整体框架示意图。
图2是二阶随机游走的示意图。
图3是神经网络模型训练示意图。
图4是基于共表达网络的癌症靶向标志物测绘方法算法流程。
图5是样本数据分布与目标基因测绘过程示意图,该数据集是对台湾地区患有肺癌的非吸烟女性的全基因组表达信息测量,包括配对的60个肿瘤样本和60个对照样本,每个样本具有54623维基因的表达。图5(a)为对已经经过预处理与筛选的特征基因表达数据的基因选择结果;图5(b)为用本发明方法对特征基因表达数据进行计算处理后得到的基因社区;表1是图5(b)中各个模块的网络特征的平均值,
Module1 Module2 Module3 Module4 Whole net
CC 0.8387 0.8156 0.5306 0.8403 0.8003
BN 9.2351 3.1875 1.6875 14.3333 8.7832
ACG 0.1752 0.2276 0.4866 0.1325 0.2108
表1
由此可以进一步看出,模块1和模块4具有较好的网络特征。图5(c)为对拓扑网络进行特征向量提取,利用PCA进行向量的主成分提取后的可视化效果展示。图中横坐标和纵坐标分别是主成分的前两个维度,在共表达网络中的度值越大,图中对应点的半径越大。图中各个模块的颜色与图5(b)相对应。可以看出,不同模块的区分度较高,说明模块内部的功能连接更加紧密。同时,最重要的一点,在已有研究中发现的,可以作为癌症检测生物标志物的基因SEMA5A,同样在本实验中作为潜在分析目标被发现。在图5(c)中可以直观看出,表示为黄色点的基因SEMA5A处在模块1的中心处,十分接近聚类中心,这也从侧面反应了本发明方法的有效性。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图5,一种基于共表达网络的癌症靶向标志物测绘方法,包括以下步骤:
1)构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵,过程如下:
1.1)将已经经过预处理与筛选的特征基因的基因表达数据作为构建共表达基础网络的源数据;
1.2)计算邻接矩阵,使用基因间表达水平的相关系数的幂指数加权值作为共表达的邻接矩阵,表示为Amatrix=[aij],计算公式如下:
式(1)中,Mpool3表示候选基因个数,即特征基因的数量;cor(·,·)表示基因i与基因j之间的相关系数;β表示加权幂指数,β的值根据无标度网络原则确定:即出现连接度为k的节点个数与该节点出现的概率p(k)反比于k的τ次方,且此时的相关系数需大于某一阈值thre(一般取thre=0.8);
1.3)计算拓扑矩阵,考虑基因与其它所有基因间的邻接关系,将邻接矩阵Amatrix转换为拓扑矩阵Ωmatrix=[ωij],计算公式如下:
式(2)中,lij=∑uaiuauj表示与基因i、j都存在连边的基因u的邻接系数乘积和,ki=∑uaiu表示与基因i单独连接的基因u的邻接系数和,kj=∑uaju表示与基因j单独连接的基因u的邻接系数和;在与基因i和j之间无直接连接,且无任何其它的基因将这两个基因间接连接的情况下,取ωij=0;
2)提取共表达基础网络的特征,即将拓扑网络的各个基因节点转换为特征向量作为网络的特征值,过程如下:
2.1)根据步骤1.3)中得到的拓扑矩阵确定共表达网络的基本结构;
2.2)针对网络中的每个节点进行二阶随机游走,节点总数表示为N,对于一个初始的头结点nu,定义游走长度为lrandomWalk,Ci表示游走中的第i个节点,并以C0=nu开始,Ci的生成满足以下分布:
式(3)中,x为下一步可能游走的节点,ν为当前停留的节点,πvx表示节点v与x间未标准化的转移概率,Z表示标准化常数;对于Ci-2=t,t表示已游走的上一个节点,定义πvx=αpq(t,x),其计算公式为:
式(4)中,α表示带p、q参数的偏置量,dtx表示节点t与x间的最短路径,且dtx∈{0,1,2};为了避免相邻节点间的重复游走并确保游走的范围尽可能大,可将参数p设置为一个较大值(一般取p>1),将q设置为一个较小值(一般取q<1);若πvx相等,则随机选择一个节点进行游走;
2.3)根据步骤2.2)将网络中的每个节点作为头结点进行游走,得到N条长度为lrandomWalk的游走序列。
3)训练神经网络模型,根据步骤2.3)中得到的游走序列,进行神经网络模型参数的训练,过程如下:
3.1)将网络中的每一个基因节点表示成实数形式的分布式特征向量,同时使用游走序列中的节点的分布式特征向量来表示网络节点间的连接概率函数;
3.2)学习分布式特征向量与概率函数的参数,其中的训练集为步骤2.3)得到的游走序列;以一条游走序列为例,对序列中重复游走的节点仅保留第一个,处理后得到新的节点序列表示为{W1,W2,...,WT},WT∈V,其中V是节点集合,即大小为N的有限集合;训练目标是找到一个好的模型,使得该模型满足唯一的约束条件为:
式(5)中,函数f(Wt-1,···,Wt-n+1)可以分解为两个部分:第一部分为映射H(·),其中H(i)表示节点集合中的每个节点的分布式特征向量,H实际上是一个由自由参数构成的|V|*m矩阵,其中m为自定义的向量维度;第二部分为函数g(·),该函数将输入的节点特征向量(H(Wt-n+1),···,H(Wt-1))映射为节点Wt前面n-1个节点的条件概率分布,即:
f(i,Wt-1,···,Wt-n+1)=g(i,H(Wt-1),···,H(Wt-n+1)) (6)
当寻找得到满足带惩罚项的训练序列的对数似然率最大的θ,则训练结束,即:
神经网络的组成包括一个隐藏层,一个映射层,以及一个可选的直连层;最底层是单一的节点,表示成one-hot编码形式,即将节点表示成一个很长的向量,向量的分量只有一个1,其他全为0,1所对应的位置就是该节点在新的节点序列中的索引,向量长度为向量集的长度|V|。然后,每个one-hot编码的向量分别与投影矩阵H相乘,则原来长度为|V|的one-hot向量,经过线性变换以后,缩短为一个长度为m的向量,其中m是预先设置的特征个数,即向量的维度,向量维度一般为2个数量级;投影完成以后,将所有的特征向量按照顺序首尾相连,形成一个长度为m*(n-1)的向量,以节点向量作为隐藏层的输入,隐藏层的激活函数取为双曲正切函数tanh(·);输出层接受隐藏层的输出作为输入,经过softmax(·)函数进行转换,得到最终的输出P为:
式(8)中,y=b+Wx+Utanh(d+Kx);双曲正切函数逐个应用于隐藏层的各个单元;当神经网络节点间没有直连的时候,W=0,x是首尾相连的特征向量,即:
x=(H(Wt-1),H(Wt-2),···,H(Wt-n+1)) (9)
3.3)训练结束以后,矩阵H就是需要的节点特征向量,每一行代表该位置的节点的向量;
其中,由于步骤2)得到的游走序列不能保证将整个网络完全遍历,因此新的节点序列不包含所有节点,即得到的节点特征向量不完整;为了保证每条游走序列都是以网络中的不同节点作为初始头节点,对整个网络进行N次重复游走,重复游走策略为:对于每次训练得到的矩阵H,只选取第一条,即该游走序列起始节点的特征向量,以N条游走序列作为N个训练集,可得到N个矩阵,选取每个矩阵的第一条,即可得到N条特征向量,分别对应于N个初始头节点。
4)进行癌症靶向标志物测绘,根据基于密度峰的聚类中心自适应算法进行靶向基因社区的自动发现,过程如下:
4.1)将步骤3)得到的特征向量作为输入;
4.2)定义待聚类的向量矩阵其中xi表示矩阵的每一行,即步骤3.3)中该位置的节点的向量,相应指标集定义为IH={1,2,...,N},任意两行向量xi和xj之间的欧式距离定义为:
式(10)中,m表示向量的维度;对于H中的任一向量xi,定义其对应节点的局部密度ρi表示H中与xi之间的距离小于dc的向量个数,即:
式(11)中,dc>0表示截断距离,此处指定dc为模长最大与模长最小的两个向量xmax与xmin之间欧式距离的2%,即:
dc=0.02*dist(xmax,xmin) (12)
表示的一个降序排列下标序,即满足ρq1≥ρq2≥···≥ρqN,则可定义对应向量的距离δi为:
4.3)对于H中的每一行向量,计算其对应的密度值和距离值(ρii),i∈IS。根据得到的绘制决策图(以ρ为横轴,δ为纵轴),自动确定密度值和距离值都较大的基因节点作为聚类中心,对剩余的基因节点按照距离最近原则进行归类得到不同的基因模块。

Claims (4)

1.一种基于共表达网络的癌症靶向标志物测绘方法,其特征在于:所述方法包括以下步骤:
1)构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵,过程如下:
1.1)将已经经过预处理与筛选的特征基因的基因表达数据作为构建共表达基础网络的源数据;
1.2)计算邻接矩阵,使用基因间表达水平的相关系数的幂指数加权值作为共表达的邻接矩阵,表示为Amatrix=[aij],计算公式如下:
<mrow> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msubsup> <mo>|</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <msub> <mi>M</mi> <mrow> <mi>p</mi> <mi>o</mi> <mi>o</mi> <mi>l</mi> <mn>3</mn> </mrow> </msub> </msubsup> <mo>=</mo> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>gene</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>gene</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msup> <mo>|</mo> <mi>&amp;beta;</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
式(1)中,Mpool3表示候选基因个数,即特征基因的数量;cor(·,·)表示基因i与基因j之间的相关系数;β表示加权幂指数,β的值根据无标度网络原则确定:即出现连接度为k的节点个数与该节点出现的概率p(k)反比于k的τ次方,且此时的相关系数需大于某一阈值thre;
1.3)计算拓扑矩阵,考虑基因与其它所有基因间的邻接关系,将邻接矩阵Amatrix转换为拓扑矩阵Ωmatrix=[ωij],计算公式如下:
<mrow> <msub> <mi>&amp;omega;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>l</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mo>{</mo> <msub> <mi>k</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>k</mi> <mi>j</mi> </msub> <mo>}</mo> <mo>+</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
式(2)中,lij=∑uaiuauj表示与基因i、j都存在连边的基因u的邻接系数乘积和,ki=∑uaiu表示与基因i单独连接的基因u的邻接系数和,kj=∑uaju表示与基因j单独连接的基因u的邻接系数和;在与基因i和j之间无直接连接,且无任何其它的基因将这两个基因间接连接的情况下,取ωij=0;
2)提取共表达基础网络的特征,即将拓扑网络的各个基因节点转换为特征向量作为网络的特征值,过程如下:
2.1)根据步骤1.3)中得到的拓扑矩阵确定共表达网络的基本结构;
2.2)针对网络中的每个节点进行二阶随机游走,节点总数表示为N,对于一个初始的头结点nu,定义游走长度为lrandomWalk,Ci表示游走中的第i个节点,并以C0=nu开始,Ci的生成满足以下分布:
式(3)中,x为下一步可能游走的节点,ν为当前停留的节点,πvx表示节点v与x间未标准化的转移概率,Z表示标准化常数;对于Ci-2=t,t表示已游走的上一个节点,定义πvx=αpq(t,x),其计算公式为:
<mrow> <msub> <mi>&amp;alpha;</mi> <mrow> <mi>p</mi> <mi>q</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <mi>x</mi> <mo>)</mo> </mrow> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>/</mo> <mi>p</mi> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msub> <mi>d</mi> <mrow> <mi>t</mi> <mi>x</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msub> <mi>d</mi> <mrow> <mi>t</mi> <mi>x</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>/</mo> <mi>q</mi> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msub> <mi>d</mi> <mrow> <mi>t</mi> <mi>x</mi> </mrow> </msub> <mo>=</mo> <mn>2</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
式(4)中,α表示带p、q参数的偏置量,dtx表示节点t与x间的最短路径,且dtx∈{0,1,2};为了避免相邻节点间的重复游走并确保游走的范围尽可能大,可将参数p设置为一个较大值,取p>1将q设置为一个较小值,取q<1;若πvx相等,则随机选择一个节点进行游走;
2.3)根据步骤2.2)将网络中的每个节点作为头结点进行游走,得到N条长度为lrandomWalk的游走序列;
3)训练神经网络模型,根据步骤2.3)中得到的游走序列,进行神经网络模型参数的训练,过程如下:
3.1)将网络中的每一个基因节点表示成实数形式的分布式特征向量,同时使用游走序列中的节点的分布式特征向量来表示网络节点间的连接概率函数;
3.2)学习分布式特征向量与概率函数的参数,其中的训练集为步骤2.3)得到的游走序列;以一条游走序列为例,对序列中重复游走的节点仅保留第一个,处理后得到新的节点序列表示为{W1,W2,...,WT},WT∈V,其中V是节点集合,即大小为N的有限集合;训练目标是找到一个好的模型,使得该模型满足唯一的约束条件为:
<mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>V</mi> <mo>|</mo> </mrow> </msubsup> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>f</mi> <mo>&gt;</mo> <mn>0</mn> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
式(5)中,函数f(Wt-1,…,Wt-n+1)可以分解为两个部分:第一部分为映射H(·),其中H(i)表示节点集合中的每个节点的分布式特征向量,H实际上是一个由自由参数构成的|V|*m矩阵,其中m为自定义的向量维度;第二部分为函数g(·),该函数将输入的节点特征向量(H(Wt-n+1),…,H(Wt-1))映射为节点Wt前面n-1个节点的条件概率分布,即:
f(i,Wt-1,…,Wt-n+1)=g(i,H(Wt-1),…,H(Wt-n+1)) (6)
当寻找得到满足带惩罚项的训练序列的对数似然率最大的θ,则训练结束,即:
<mrow> <mi>L</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>T</mi> </mfrac> <munder> <mo>&amp;Sigma;</mo> <mi>t</mi> </munder> <mi>log</mi> <mi> </mi> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>R</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
神经网络的组成包括一个隐藏层,一个映射层,以及一个可选的直连层;最底层是单一的节点,表示成one-hot编码形式,即将节点表示成一个很长的向量,向量的分量只有一个1,其他全为0,1所对应的位置就是该节点在新的节点序列中的索引,向量长度为向量集的长度|V|;然后,每个one-hot编码的向量分别与投影矩阵H相乘,则原来长度为|V|的one-hot向量,经过线性变换以后,缩短为一个长度为m的向量,其中m是预先设置的特征个数,即向量的维度,向量维度一般为2个数量级;投影完成以后,将所有的特征向量按照顺序首尾相连,形成一个长度为m*(n-1)的向量,以节点向量作为隐藏层的输入,隐藏层的激活函数取为双曲正切函数tanh(·);输出层接受隐藏层的输出作为输入,经过softmax(·)函数进行转换,得到最终的输出P为:
<mrow> <mover> <mi>P</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>W</mi> <mrow> <mi>t</mi> <mo>-</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <msub> <mi>y</mi> <msub> <mi>w</mi> <mi>t</mi> </msub> </msub> </msup> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>i</mi> </msub> <msup> <mi>e</mi> <msub> <mi>y</mi> <mi>i</mi> </msub> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>
式(8)中,y=b+Wx+U tanh(d+Kx);双曲正切函数逐个应用于隐藏层的各个单元;当神经网络节点间没有直连的时候,W=0,x是首尾相连的特征向量,即:
x=(H(Wt-1),H(Wt-2),…,H(Wt-n+1)) (9)
3.3)训练结束以后,矩阵H就是需要的节点特征向量,每一行代表该位置的节点的向量;
4)进行癌症靶向标志物测绘,根据基于密度峰的聚类中心自适应算法进行靶向基因社区的自动发现,过程如下:
4.1)将步骤3)得到的特征向量作为输入;
4.2)定义待聚类的向量矩阵其中xi表示矩阵的每一行,即步骤3.3)中该位置的节点的向量,相应指标集定义为IH={1,2,...,N},任意两行向量xi和xj之间的欧式距离定义为:
<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>
式(10)中,m表示向量的维度;对于H中的任一向量xi,定义其对应节点的局部密度ρi表示H中与xi之间的距离小于dc的向量个数,即:
其中
式(11)中,dc>0表示截断距离,此处指定dc为模长最大与模长最小的两个向量xmax与xmin之间欧式距离的2%,即:
dc=0.02*dist(xmax,xmin) (12)
表示的一个降序排列下标序,即满足ρq1≥ρq2≥…≥ρqN,则可定义对应向量的距离δi为:
<mrow> <msub> <mi>&amp;delta;</mi> <msub> <mi>q</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>j</mi> <mo>&amp;le;</mo> <mi>i</mi> </mrow> </munder> <mo>{</mo> <msub> <mi>d</mi> <mrow> <msub> <mi>q</mi> <mi>i</mi> </msub> <msub> <mi>q</mi> <mi>j</mi> </msub> </mrow> </msub> <mo>}</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>&amp;GreaterEqual;</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>j</mi> <mo>&amp;GreaterEqual;</mo> <mn>2</mn> </mrow> </munder> <mo>{</mo> <msub> <mi>d</mi> <msub> <mi>q</mi> <mi>j</mi> </msub> </msub> <mo>}</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>
4.3)对于H中的每一行向量,计算其对应的密度值和距离值(ρii),i∈IS;根据得到的绘制决策图(以ρ为横轴,δ为纵轴),自动确定密度值和距离值都较大的基因节点作为聚类中心,对剩余的基因节点按照距离最近原则进行归类得到不同的基因模块。
2.如权利要求1所述的基于共表达网络的癌症靶向标志物测绘方法,其特征在于:所述步骤3)中,将步骤2)中得到的游走序列作为神经网络训练的训练集,其处理过程为:对每条游走序列进行节点剔除,即对于一条序列中重复出现的节点仅保留第一个,完成后得到新的节点序列。
3.如权利要求1或2所述的基于共表达网络的癌症靶向标志物测绘方法,其特征在于:在所述步骤3)中,由于步骤2)中得到的游走序列不能保证将整个网络完全遍历,因此新的节点序列不包含所有节点,即得到的节点特征向量不完整;为了保证每条游走序列都是以网络中的不同节点作为初始头节点,对整个网络进行N次重复游走,重复游走策略为:对于每次训练得到的矩阵H,只选取第一条,即该游走序列起始节点的特征向量,以N条游走序列作为N个训练集,可得到N个矩阵,选取每个矩阵的第一条,即可得到N条特征向量,分别对应于N个初始头节点。
4.如权利要求1或2所述的基于共表达网络的癌症靶向标志物测绘方法,其特征在于:在所述步骤4)中,在完成社区发现后,计算总网络和各个子网络的特征值,如平均聚类系数、平均介数等,并结合临床数据验证具有较高网络特征的基因模块与研究人员关注的表现型之间的相关性,完成对癌症靶向标志物的测绘。
CN201711336559.1A 2017-12-14 2017-12-14 基于共表达网络的癌症靶向标志物测绘方法 Active CN107992720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711336559.1A CN107992720B (zh) 2017-12-14 2017-12-14 基于共表达网络的癌症靶向标志物测绘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711336559.1A CN107992720B (zh) 2017-12-14 2017-12-14 基于共表达网络的癌症靶向标志物测绘方法

Publications (2)

Publication Number Publication Date
CN107992720A true CN107992720A (zh) 2018-05-04
CN107992720B CN107992720B (zh) 2021-08-03

Family

ID=62038371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711336559.1A Active CN107992720B (zh) 2017-12-14 2017-12-14 基于共表达网络的癌症靶向标志物测绘方法

Country Status (1)

Country Link
CN (1) CN107992720B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872317A (zh) * 2019-02-22 2019-06-11 西南交通大学 一种基于电力设备缺陷识别学习模型的缺陷识别方法
CN109872776A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN109872772A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法
CN110957002A (zh) * 2019-12-17 2020-04-03 电子科技大学 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN112102881A (zh) * 2020-10-14 2020-12-18 山东大学 基于改进盒维数法的基因健康分形维数获取方法及系统
CN113096828A (zh) * 2021-04-19 2021-07-09 梅里医疗科技(洋浦)有限责任公司 基于癌症基因组大数据核心算法的诊断、预测以及大健康管理平台
CN113611366A (zh) * 2021-07-26 2021-11-05 哈尔滨工业大学(深圳) 基于图神经网络的基因模块挖掘方法、装置、计算机设备
WO2023093671A1 (en) * 2021-11-23 2023-06-01 International Business Machines Corporation Topological signatures for disease characterization

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268431A (zh) * 2013-05-21 2013-08-28 中山大学 一种基于学生t分布的癌症亚型生物标志物检测系统
CN103782301A (zh) * 2011-09-09 2014-05-07 菲利普莫里斯生产公司 用于基于网络的生物活性评估的系统与方法
CN105930688A (zh) * 2016-04-18 2016-09-07 福州大学 基于改进pso算法的蛋白质功能模块检测方法
CN106202984A (zh) * 2016-08-26 2016-12-07 赵毅 一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103782301A (zh) * 2011-09-09 2014-05-07 菲利普莫里斯生产公司 用于基于网络的生物活性评估的系统与方法
CN103268431A (zh) * 2013-05-21 2013-08-28 中山大学 一种基于学生t分布的癌症亚型生物标志物检测系统
CN105930688A (zh) * 2016-04-18 2016-09-07 福州大学 基于改进pso算法的蛋白质功能模块检测方法
CN106202984A (zh) * 2016-08-26 2016-12-07 赵毅 一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方木云: "Hadoop下基于边聚类的重叠社区发现算法研究", 《计算机技术与发展》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872776A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN109872772A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 利用权重基因共表达网络挖掘结直肠癌放疗特异性基因的方法
CN109872776B (zh) * 2019-02-14 2023-06-09 辽宁省肿瘤医院 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN109872317A (zh) * 2019-02-22 2019-06-11 西南交通大学 一种基于电力设备缺陷识别学习模型的缺陷识别方法
CN110957002A (zh) * 2019-12-17 2020-04-03 电子科技大学 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN112102881A (zh) * 2020-10-14 2020-12-18 山东大学 基于改进盒维数法的基因健康分形维数获取方法及系统
CN112102881B (zh) * 2020-10-14 2023-11-24 山东大学 基于改进盒维数法的基因健康分形维数获取方法及系统
CN113096828A (zh) * 2021-04-19 2021-07-09 梅里医疗科技(洋浦)有限责任公司 基于癌症基因组大数据核心算法的诊断、预测以及大健康管理平台
CN113096828B (zh) * 2021-04-19 2022-06-10 西康软件有限责任公司 基于癌症基因组大数据核心算法的诊断、预测以及大健康管理平台
CN113611366A (zh) * 2021-07-26 2021-11-05 哈尔滨工业大学(深圳) 基于图神经网络的基因模块挖掘方法、装置、计算机设备
WO2023093671A1 (en) * 2021-11-23 2023-06-01 International Business Machines Corporation Topological signatures for disease characterization

Also Published As

Publication number Publication date
CN107992720B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN107992720A (zh) 基于共表达网络的癌症靶向标志物测绘方法
Mialon et al. Graphit: Encoding graph structure in transformers
Chen et al. A novel ensemble of classifiers for microarray data classification
Kuo et al. Application of ant K-means on clustering analysis
CN104008165B (zh) 一种基于网络拓扑结构和节点属性的社团检测方法
CN107562812A (zh) 一种基于特定模态语义空间建模的跨模态相似性学习方法
Su et al. An artificial neural network for predicting the incidence of radiation pneumonitis
CN102413029A (zh) 基于分解的局部搜索多目标复杂动态网络社区划分方法
CN107730542A (zh) 锥束计算机断层扫描图像对应与配准方法
CN101324926B (zh) 一种面向复杂模式分类的特征选择方法
CN114566211B (zh) 基于生物网络与机器学习的合成致死基因组合预测系统
CN107169871B (zh) 一种基于关系组合优化和种子扩张的多关系社区发现方法
CN106055922A (zh) 一种基于基因表达数据的混合网络基因筛选方法
CN104966106B (zh) 一种基于支持向量机的生物年龄分步预测方法
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
CN102073882A (zh) 高光谱遥感影像的dna计算光谱匹配分类方法
CN108846261A (zh) 基于可视图算法的基因表达时序数据分类方法
CN110993113A (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
Wu et al. A hierarchical cooperative evolutionary algorithm
Prasad et al. Designing mamdani-type fuzzy reasoning for visualizing prediction problems based on collaborative fuzzy clustering
Singh et al. A neighborhood search based cat swarm optimization algorithm for clustering problems
Saleh et al. A OBTAINING UNIQUE BY ANALYZING DNA USING A NEURO-FUZZY ALGORITHM.
CN113989544A (zh) 一种基于深度图卷积网络的群体发现方法
CN105139037A (zh) 基于最小生成树的集成多目标进化自动聚类方法
Tan et al. A hierarchical graph convolution network for representation learning of gene expression data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant