CN105160208A - 用于疾病亚型问题的基于网络的聚类方法 - Google Patents

用于疾病亚型问题的基于网络的聚类方法 Download PDF

Info

Publication number
CN105160208A
CN105160208A CN201510532877.XA CN201510532877A CN105160208A CN 105160208 A CN105160208 A CN 105160208A CN 201510532877 A CN201510532877 A CN 201510532877A CN 105160208 A CN105160208 A CN 105160208A
Authority
CN
China
Prior art keywords
gene
represent
mrna
network
concentration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510532877.XA
Other languages
English (en)
Inventor
孔德兴
方红晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU OSHI IMAGE TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU OSHI IMAGE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU OSHI IMAGE TECHNOLOGY Co Ltd filed Critical HANGZHOU OSHI IMAGE TECHNOLOGY Co Ltd
Priority to CN201510532877.XA priority Critical patent/CN105160208A/zh
Publication of CN105160208A publication Critical patent/CN105160208A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及逆向研究疾病亚型领域,旨在提供用于疾病亚型问题的基于网络的聚类方法。该用于疾病亚型问题的基于网络的聚类方法包括过程:获得O-G矩阵以及基因调控网络;选取适用于具体问题的基于网络的距离定义,构建距离矩阵;运用k-medoids算法对O-G矩阵进行聚类分析,聚类时距离的选择用基于网络的距离。本发明对于特定的基因网络,将有更好的组间相似性,能更有效地还原三种亚型;当有大量的基因需要测定其表达数据时,本发明通过优先精确测量信息基因的表达数据,不会大大地削弱对于疾病亚型的鉴定效果。

Description

用于疾病亚型问题的基于网络的聚类方法
技术领域
本发明是关于逆向研究疾病亚型领域,特别涉及用于疾病亚型问题的基于网络的聚类方法。
背景技术
对于由基因变异导致的疾病的研究一直是一个非常热门的议题。在这些疾病中,很多疾病都有不同的亚型。所谓亚型(subtype),是同一个疾病下的不同的种型。它们可能由不同的病因引起,并且有不同的临床表征。例如HIV有1型和2型,肿瘤亚型有卵巢癌、肺癌、子宫癌等。
对于疾病亚型的很多研究,现阶段还是集中在对于其病理的正向研究。而运用逆向工程技术(reverseengineering),逆向研究疾病亚型也逐渐成为一个热门的话题。“逆向工程技术”是一个研究主体系统的过程。它通过研究主体系统来鉴定系统的各个成分以及它们之间的相互关联,并用另一种方式在更加抽象,更加上层的水平上对该系统进行代表。逆向工程技术在疾病亚型鉴定与分类方面研究上的一个非常重要的应用,就是通过已有的临床信息,例如基因表达数据(geneexpressiondata)等,运用包括聚类分析(clusteranalysis)在内的各种手段,反向研究并鉴定疾病的亚型。然而,由于基因的表达之间并非是独立的,而是会通过各种关系相互作用。因此,最终获取的基因表达数据,也应该是相互关联的。而在以往的研究中,人们只是使用传统的聚类方法,并没有考虑这种基因表达数据间的相互关联。因此,将有关基因的作用关系的信息加入聚类分析中是一个自然、新颖的想法并且值得一试。
发明内容
本发明的主要目的在于克服现有技术中的不足,提供能更好的将疾病亚型进行分类,更好的还原真实的疾病亚型的基于网络的聚类方法。为解决上述技术问题,本发明的解决方案是:
提供用于疾病亚型问题的基于网络的聚类方法,具体包括下述过程:
(1)获得O-G矩阵以及基因调控网络;
(2)选取适用于具体问题的基于网络的距离定义,构建距离矩阵;
(3)运用k-medoids算法对O-G矩阵进行聚类分析;聚类时距离的选择用基于网络的距离;
(4)得出最终关于疾病亚型的分类;
所述过程(1)具体包括下述步骤:
步骤A:根据基因调控网络(即基因-蛋白质调控网络,是一个细胞中DNA片段集合通过相互间的各种非间接作用,比如RNA作用以及蛋白质表达作用,来影响其mRNA以及蛋白质表达水平的相互关系)的特性(例如网络的平均出度、入度等参数),构建随机的有向图来代表基因调控网络G(V,E);其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i(转录因子i);每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;
步骤B:根据产生的基因调控网络G(V,E),对每个基因i建立激活函数fi(·),具体建立方式为:
对于任意的基因i∈V,i=1,2,K,n,我们从G(V,E)中找出所有与i相邻且以i为有向边终点的点,构成影响因子集合{q1,q2,K,qsn};其中,q1表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,q2表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,q1n表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,n表示基因调控网络中基因的数量;
确定解离常数kij,且kij从定义在[0.01,1]区间上的均匀分布中选取;
确定希尔系数nij,且nij服从[1,10]区间中的高斯分布函数
确定相对活性αi,且αi从定义在[0,1]区间上的均匀分布上采样;
步骤C:确定无噪声动态基因调控模型,即确定公式(2.1)的各个参数;
F i m R N A ( x , y ) = dx i d t = m i · f i ( y ) - λ i R N A · x i F i Pr o t ( x , y ) = dy i d t = r i · x i - λ i Pr o t · y i - - - ( 2.1 )
式(2.1)中,xi表示基因i的浓度;yi表示蛋白质i的浓度;表示mRNAi的浓度变化率;表示蛋白质i的浓度变化率;mi表示基因i的最大转录速率;ri表示mRNAi的翻译速率;表示mRNAi的降解速率;表示蛋白质i的降解速率;fi(·)表示基因i的激活函数;
确定公式(2.1)中各个参数的具体方式为:mRNA的半衰期以及蛋白质的半衰期(以分钟为单位)从定义在[5,50]区间上的高斯分布上采样;
根据公式(2.9),获得mRNA以及蛋白质的降解速率,最大转录速率mi以及翻译速率ri服从[0.01,0.011]区间上的均匀分布;
λ i R N A = l n 2 T i R N A λ i Pr o t = 1 n 2 T i Pr o t - - - ( 2.9 )
式(2.9)中,表示mRNAi的降解速率;表示蛋白质i的降解速率;mRNA的半衰期以及蛋白质的半衰期(以分钟为单位);
步骤D:在获得了基因调控网络以及无噪声动态基因调控模型之后,选定mRNA浓度x(x1,x2,K,xn)以及蛋白质浓度y(y1,y2,K,yn)的初始值(可以令各个xi和yi服从[0,1]区间上的均匀分布,并随机选取作为初始值),然后求解公式(2.1),得到最终的基因表达数据;
所述过程(2)具体是指:根据过程(1)所获得的基因网络的拓扑关系G(V,E),定义三种基于网络的距离,用于比较x1(x11,x12,K,x1n)与x2(x21,x22,K,x2n)的差别;其中x1(x11,x12,K,x1n)、x2(x21,x22,K,x2n)分别表示两个被试者P1和P2的mRNA浓度;
令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i(转录因子i);它关联的xi表示该基因转录的mRNAi浓度;令每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;记Ti表示与节点i相连的边数(即节点i的度),Ii表示节点i的入度,Oi表示节点i的出度;
其中,基于网络的Jaccard距离定义为:
E J = 2 Σ i = 1 n T i | x 1 i - x 2 i | Σ i = 1 n T i ( x 1 i + x 2 i ) + Σ i = 1 n T i | x 1 i - x 2 i | 公式(3.10);
其中,令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i(转录因子i);它关联的xi表示该基因转录的mRNAi浓度;Ti表示与节点i相连的边数(即节点i的度),Ii表示节点i的入度,Oi表示节点i的出度;x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;n表示基因调控网络中基因的数量;
基于网络的Euclidean距离:
E E = Σ i = 1 n Σ j = 1 n δ i j ( x 1 i - x 2 i ) ( x 1 j - x 2 j ) 公式(3.11);
式中,
其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;x1j指被试者P1的mRNAj浓度;x2j指被试者P2的mRNAj浓度;n表示基因调控网络中基因的数量;
基于网络的Pearson距离:
E P = 1 - Σ i = 1 n I i ( x 1 i - x 1 ‾ ) ( x 2 i - x 2 ‾ ) Σ i = 1 n I i ( x 1 i - x 1 ‾ ) 2 Σ i = 1 n I i ( x 2 i - x 2 ‾ ) 2 公式(3.12);
其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNA1浓度;n表示基因调控网络中基因的数量;
Ii表示节点i的入度;这里的xi1指被试者Pi的mRNA1浓度;这里的xi2指被试者Pi的mRNA2浓度;
所述过程(3)具体是指:将过程(2)中定义的距离引入聚类分析中,使用k-medoids聚类分析方法,对过程(1)所获得的基因表达数据进行聚类;
假设有n个被试者,我们将n个被试者划分为k类,K-medoids聚类算法是,基于网络的Pearson距离具体的算法具体方法如下:
(a)从n个数据对象中任意选取k个数据对象作为medoids-聚类的中心,
(b)选定基于网络的Person距离,即:
E P = 1 - Σ i = 1 n I i ( x 1 i - x 1 ‾ ) ( x 2 i - x 2 ‾ ) Σ i = 1 n I i ( x 1 i - x 1 ‾ ) 2 Σ i = 1 n I i ( x 2 i - x 2 ‾ ) 2 ,
然后分别计算余下的数据对象到各个聚类中心的距离,并将余下的数据对象分配到离自己最近的聚类中,最终得到k组划分,G1,G2,...,Gk
(c)数据对象分配完成后,顺序选取一个数据对象来代替原来的聚类中心,并计算代替后的优化目标函数 f = Σ i = 1 k Σ j s . t . x j ∈ G i d ( x j ( i ) , x i * ) ;
其中,d(x1,x2)定义如下:
d ( x 1 , x 2 ) = 1 - Σ i = 1 n I i ( x 1 i - x 1 ‾ ) ( x 2 i - x 2 ‾ ) Σ i = 1 n I i ( x 1 i - x 1 ‾ ) 2 Σ i = 1 n I i ( x 2 i - x 2 ‾ ) 2 ;
同理定义d(xi,xj)和其中,为从x1,x2,...,xn中选取的k个聚类中心;表示xj∈Gi
再选择f最小的数据对象来代替聚类中心,这样K个mediods就改变了;
(d)与前一次的聚类中心相比较,如果发生变化转到方法(b),如果不发生变化转到方法(e);
(e)将聚类的结果输出;
所述过程(4)具体是指:根据过程(3)的聚类结果,得出最终关于疾病亚型的分类。
与现有技术相比,本发明的有益效果是:
对于特定的基因网络,基于网络的聚类方法将有更好的组间相似性,更有效地还原三种亚型。此外,当有大量的基因需要测定其表达数据时,现有的方法可能无法同时对所有的基因进行精确的测量。此时,我们提出的“基于网络的聚类”法使得我们通过优先精确测量信息基因的表达数据,并不会大大地削弱对于疾病亚型的鉴定效果。
附图说明
图1为本发明的操作流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
现在,我们假定一共有32位被试者P1、P2、...、P32,其中被试者P1、P2、...、P8为正常状态病人,被试者P9、P10、...、P16为患有基因疾病亚型D1的病人,被试者P17、P18、...、P24患有基因疾病亚型D2,被试者P25、P26、...、P32患有基因疾病亚型D3。D1、D2、D3中的每一种亚型都代表着某些基因表达的失常。为了模拟这个表达失常过程,对于某一种亚型,我们从整个基因调控网络中随机选取一定的节点(也就是基因),对其最大转录速率mi进行扰动。对于不同的亚型,我们选取不同的基因进行扰动。我们希望做的是通过对32位被试者最后的mRNA浓度向量进行聚类分析,试图分出对照组与三种疾病亚型。
步骤A:我们根据基因调控网络的某些特性(例如网络的平均出度、入度等参数)来构建随机的有向图来代表基因调控网络构建基因调控网络。假设我们要产生由n个基因组成的基因调控网络,根据基因调控网络的特性,我们将产生一张平均入度为2,且分布满足幂定理分布(powerlawdistribution)的随机有向网络G(V,E),其中|V|=n。此外,图中不允许有自环的出现。
步骤B:根据我们产生的基因调控网络G(V,E),对每个基因i建立激活函数fi(·)。建立过程如下:(1)对于任意的基因i∈V,i=1,2,K,n,我们从G(V,E)中找出所有与i相邻且以i为有向边终点的点,构成影响因子集合{q1,q2,K,qsn}。(2)确定解离常数kij:kij将从定义在[0.01,1]区间上的均匀分布中选取。(3)确定希尔系数nij:nij服从[1,10]区间中的高斯分布函数(4)确定相对活性αi:αi将从定义在[0,1]区间上的均匀分布上采样。
步骤C:确定无噪声动态基因调控模型,也就是方程
F i m R N A ( x , y ) = dx i d t = m i · f i ( y ) - λ i R N A · x i F i Pr o t ( x , y ) = dy i d t = r i · x i - λ i Pr o t · y i , (2.1)的各个参数。
式中:xi——基因i的浓度;
yi——蛋白质i的浓度;
——mRNAi的浓度变化率;
——蛋白质i的浓度变化率;
mi——基因i的最大转录速率;
ri——mRNAi的翻译速率;
——mRNAi的降解速率;
——蛋白质i的降解速率;
fi(·)——基因i的激活函数。
首先,mRNA的半衰期以及蛋白质的半衰期(以分钟为单位)将从定义在[5,50]区间上的高斯分布上采样。根据公式:
λ i R N A = l n 2 T i R N A λ i Pr o t = 1 n 2 T i Pr o t - - - ( 2.9 )
我们便可以获得mRNA以及蛋白质的降解速率。此外,最大转录速率mi以及翻译速率ri服从[0.01,0.011]区间上的均匀分布。
步骤D:在获得了基因调控网络以及动态基因模型之后,求解方程(2.1),并做出各个mRNA浓度随时间变化的时间序列图。为此,我们首先要选定mRNA浓度x(x1,x2,K,xn)以及蛋白质浓度y(y1,y2,K,yn)的初始值。我们的做法是令各个xi和yi服从[0,1]区间上的均匀分布,并随机选取作为初始值。在获得了各个mRNA以及蛋白质浓度的初始值后,我们便可以通过方程(2.1)求解最终的基因表达数据。我们一共取n=10,20,50个基因,计算t=0到t=500之间的时间序列图。
步骤F:我们用一个仿真给出一个观察。我们首先选定一个基因调控网络。接着,我们随机产生四组不同的初值xi(xi1,xi2,K,xin),n=20,i=1,2,3,4以及yi(yi1,yi2,K,yin),n=20,i=1,2,3,4作为mRNA及蛋白质初始浓度。最后,我们用方程(2.1)计算并绘制四种不同初值情形下的mRNA浓度时间序列图,并给出四种状态下mRNA浓度终态的数据。
步骤G:我们使用基因调控模型(2.1)进行仿真,并最终得到一个O-G矩阵(32×20)。然后我们运用基于网络的Pearson距离结合k-medoids算法对被试者进行分类具体做法为将32个被试者划分为4类,K-medoids聚类算法是,基于网络的Pearson距离具体的算法过程如下:
A:从32数据对象中任意选取4个数据对象作为medoids-聚类的中心;
B:选定基于网络的Person距离, E P = 1 - Σ i = 1 n I i ( x 1 i - x 1 ‾ ) ( x 2 i - x 2 ‾ ) Σ i = 1 n I i ( x 1 i - x 1 ‾ ) 2 Σ i = 1 n I i ( x 2 i - x 2 ‾ ) 2 分别计算余下的数据对象到各个聚类中心的距离,并将余下的数据对象分配到离自己最近的聚类中,最终得到4组划分;
C:数据对象分配完成后,顺序选取一个数据对象来代替原来的聚类中心,并计算代替后的优化目标函数f,选择f最小的数据对象来代替聚类中心,这样4个mediods就改变了;
D:与前一次的聚类中心相比较,如果发生变化转到(B),如果不发生变化转到(E);
E:将聚类的结果输出,并将分类的结果与真实情况进行对比(真实情况即为正常类型与每种异常各有8位被试者)。
步骤H:综上所述,我们提出“基于网络的聚类(Network-basedClustering)”方法,得出最终关于疾病亚型的分类。
最后,需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (1)

1.用于疾病亚型问题的基于网络的聚类方法,其特征在于,具体包括下述过程:
(1)获得O-G矩阵以及基因调控网络;
(2)选取适用于具体问题的基于网络的距离定义,构建距离矩阵;
(3)运用k-medoids算法对O-G矩阵进行聚类分析;聚类时距离的选择用基于网络的距离;
(4)得出最终关于疾病亚型的分类;
所述过程(1)具体包括下述步骤:
步骤A:根据基因调控网络的特性,构建随机的有向图来代表基因调控网络G(V,E);其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;
步骤B:根据产生的基因调控网络G(V,E),对每个基因i建立激活函数fi(·),具体建立方式为:
对于任意的基因i∈V,i=1,2,K,n,我们从G(V,E)中找出所有与i相邻且以i为有向边终点的点,构成影响因子集合{q1,q2,K,qsn};其中,q1表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,q2表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,qsn表示与i相邻且以i为有向边终点的某基因中对基因i起影响作用的因子,n表示基因调控网络中基因的数量;
确定解离常数kij,且kij从定义在[0.01,1]区间上的均匀分布中选取;
确定希尔系数nij,且nij服从[1,10]区间中的高斯分布函数
确定相对活性αi,且αi从定义在[0,1]区间上的均匀分布上采样;
步骤C:确定无噪声动态基因调控模型,即确定公式(2.1)的各个参数;
F i m R N A ( x , y ) = dx i d t = m i · f i ( y ) - λ i R N A · x i F i Pr o t ( x , y ) = dy i d t = r i · x i - λ i Pr o t · y i - - - ( 2.1 )
式(2.1)中,xi表示基因i的浓度;yi表示蛋白质i的浓度;Fi mRNA表示mRNAi的浓度变化率;Fi Prot表示蛋白质i的浓度变化率;mi表示基因i的最大转录速率;ri表示mRNAi的翻译速率;表示mRNAi的降解速率;表示蛋白质i的降解速率;fi(·)表示基因i的激活函数;
确定公式(2.1)中各个参数的具体方式为:mRNA的半衰期Ti RNA以及蛋白质的半衰期Ti Prot从定义在[5,50]区间上的高斯分布上采样;
根据公式(2.9),获得mRNA以及蛋白质的降解速率,最大转录速率mi以及翻译速率ri服从[0.01,0.011]区间上的均匀分布;
λ i RNA = ln 2 T i RNA λ i Rrot = ln 2 T i Rrot - - - ( 2.9 )
式(2.9)中,表示mRNAi的降解速率;表示蛋白质i的降解速率;mRNA的半衰期Ti RNA以及蛋白质的半衰期Ti Prot
步骤D:在获得了基因调控网络以及无噪声动态基因调控模型之后,选定mRNA浓度x(x1,x2,K,xn)以及蛋白质浓度y(y1,y2,K,yn)的初始值,然后求解公式(2.1),得到最终的基因表达数据;
所述过程(2)具体是指:根据过程(1)所获得的基因网络的拓扑关系G(V,E),定义三种基于网络的距离,用于比较x1(x11,x12,K,x1n)与x2(x21,x22,K,x2n)的差别;其中x1(x11,x12,K,x1n)、x2(x21,x22,K,x2n)分别表示两个被试者P1和P2的mRNA浓度;
令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;它关联的xi表示该基因转录的mRNAi浓度;令每条有向边eji∈E代表着“转录因子j调控基因i的转录”这种调控关系;记Ti表示与节点i相连的边数,Ii表示节点i的入度,Oi表示节点i的出度;
其中,基于网络的Jaccard距离定义为:
E J = 2 Σ i = 1 n T i | x 1 i - x 2 i | Σ i = 1 n T i ( x 1 i + x 2 i ) + Σ i = 1 n T i | x 1 i - x 2 i | 公式(3.10);
其中,令G(V,E)代表该基因调控网络,其中每个顶点i∈V代表基因i及其产生的mRNAi和蛋白质i;它关联的xi表示该基因转录的mRNAi浓度;Ti表示与节点i相连的边数,Ii表示节点i的入度,Oi表示节点i的出度;x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;n表示基因调控网络中基因的数量;
基于网络的Euclidean距离:
E E = Σ i = 1 n Σ j = 1 n δ i j ( x 1 i - x 2 i ) ( x 1 j - x 2 j ) 公式(3.11);
式中,
其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNAi浓度;x1j指被试者P1的mRNAj浓度;x2j指被试者P2的mRNAj浓度;n表示基因调控网络中基因的数量;
基于网络的Pearson距离:
E P = 1 - Σ i = 1 n I i ( x 1 i - x 1 ‾ ) ( x 2 i - x 2 ‾ ) Σ i = 1 n I i ( x 1 i - x 1 ‾ ) 2 Σ i = 1 n I i ( x 2 i - x 2 ‾ ) 2 公式(3.12);
其中,x1i指被试者P1的mRNAi浓度;x2i指被试者P2的mRNA1浓度;n表示基因调控网络中基因的数量;
Ii表示节点i的入度;这里的xi1指被试者Pi的mRNA1浓度;这里的xi2指被试者Pi的mRNA2浓度;
所述过程(3)具体是指:将过程(2)中定义的距离引入聚类分析中,使用k-medoids聚类分析方法,对过程(1)所获得的基因表达数据进行聚类;
假设有n个被试者,我们将n个被试者划分为k类,K-medoids聚类算法是,基于网络的Pearson距离具体的算法具体方法如下:
(a)从n个数据对象中任意选取k个数据对象作为medoids-聚类的中心,
(b)选定基于网络的Person距离,即:
E P = 1 - Σ i = 1 n I i ( x 1 i - x 1 ‾ ) ( x 2 i - x 2 ‾ ) Σ i = 1 n I i ( x 1 i - x 1 ‾ ) 2 Σ i = 1 n I i ( x 2 i - x 2 ‾ ) 2 ,
然后分别计算余下的数据对象到各个聚类中心的距离,并将余下的数据对象分配到离自己最近的聚类中,最终得到k组划分,G1,G2,…,Gk
(c)数据对象分配完成后,顺序选取一个数据对象来代替原来的聚类中心,并计算代替后的优化目标函数 f = Σ i = 1 k Σ j s . t . x j ∈ G i d ( x j ( i ) , x i * ) ;
其中,d(x1,x2)定义如下:
d ( x 1 , x 2 ) = 1 - Σ i = 1 n I i ( x 1 i - x 1 ‾ ) ( x 2 i - x 2 ‾ ) Σ i = 1 n I i ( x 1 i - x 1 ‾ ) 2 Σ i = 1 n I i ( x 2 i - x 2 ‾ ) 2 ;
同理定义d(xi,xj)和其中,为从x1,x2,…,xn中选取的k个聚类中心;表示xj∈Gi
再选择f最小的数据对象来代替聚类中心,这样K个mediods就改变了;
(d)与前一次的聚类中心相比较,如果发生变化转到方法(b),如果不发生变化转到方法(e);
(e)将聚类的结果输出;
所述过程(4)具体是指:根据过程(3)的聚类结果,得出最终关于疾病亚型的分类。
CN201510532877.XA 2015-05-29 2015-08-27 用于疾病亚型问题的基于网络的聚类方法 Pending CN105160208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510532877.XA CN105160208A (zh) 2015-05-29 2015-08-27 用于疾病亚型问题的基于网络的聚类方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510289572 2015-05-29
CN2015102895720 2015-05-29
CN201510532877.XA CN105160208A (zh) 2015-05-29 2015-08-27 用于疾病亚型问题的基于网络的聚类方法

Publications (1)

Publication Number Publication Date
CN105160208A true CN105160208A (zh) 2015-12-16

Family

ID=54801064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510532877.XA Pending CN105160208A (zh) 2015-05-29 2015-08-27 用于疾病亚型问题的基于网络的聚类方法

Country Status (1)

Country Link
CN (1) CN105160208A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415425A (zh) * 2018-02-08 2018-08-17 东华大学 一种基于改进基因调控网络的分布式群机器人协同集群算法
JP2020046867A (ja) * 2018-09-18 2020-03-26 国立大学法人東京工業大学 癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置
CN113626817A (zh) * 2021-08-25 2021-11-09 北京邮电大学 恶意代码家族分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060211036A1 (en) * 2002-06-25 2006-09-21 Yeh-Tze Chou Metastasis-associated gene profiling for identification of tumor tissue, subtyping, and prediction of prognosis of patients
CN103268431A (zh) * 2013-05-21 2013-08-28 中山大学 一种基于学生t分布的癌症亚型生物标志物检测系统
US20140342924A1 (en) * 2011-06-02 2014-11-20 Almac Diagnostics Limited Molecular Diagnostic Test for Cancer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060211036A1 (en) * 2002-06-25 2006-09-21 Yeh-Tze Chou Metastasis-associated gene profiling for identification of tumor tissue, subtyping, and prediction of prognosis of patients
US20140342924A1 (en) * 2011-06-02 2014-11-20 Almac Diagnostics Limited Molecular Diagnostic Test for Cancer
CN103268431A (zh) * 2013-05-21 2013-08-28 中山大学 一种基于学生t分布的癌症亚型生物标志物检测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SAJID NAGI等: "Gene Expression Data Clustering Analysis: A Survey", 《2011 2ND NATIONAL CONFERENCE ON EMERGING TRENDS AND APPLICATION IN COMPUTER SCIENCE》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415425A (zh) * 2018-02-08 2018-08-17 东华大学 一种基于改进基因调控网络的分布式群机器人协同集群算法
JP2020046867A (ja) * 2018-09-18 2020-03-26 国立大学法人東京工業大学 癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置
JP7209334B2 (ja) 2018-09-18 2023-01-20 国立大学法人東京工業大学 癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置
CN113626817A (zh) * 2021-08-25 2021-11-09 北京邮电大学 恶意代码家族分类方法

Similar Documents

Publication Publication Date Title
Agustı et al. A new grouping genetic algorithm for clustering problems
Gill et al. A statistical framework for differential network analysis from microarray data
Marvel et al. Encouraging moderation: clues from a simple model of ideological conflict
Tembine Risk-sensitive mean field stochastic games
CN106777402B (zh) 一种基于稀疏神经网络的图像检索文本方法
CN105160208A (zh) 用于疾病亚型问题的基于网络的聚类方法
CN102708327A (zh) 一种基于谱优化的网络社区发现方法
Adamatzky et al. Are motorways rational from slime mould's point of view?
CN109872773A (zh) 基于Adaboost、BP神经网络和随机森林融合的mirco-RNA前体识别方法
Dorantes-Gilardi et al. Multilayer approach reveals organizational principles disrupted in breast cancer co-expression networks
Zhang et al. VeloSim: Simulating single cell gene-expression and RNA velocity
Reyes et al. Visualizing evolution in real-time method for strain engineering
CN103226728A (zh) 高密度聚乙烯串级聚合反应过程智能检测与收率优化方法
Huang et al. treeclimbR pinpoints the data-dependent resolution of hierarchical hypotheses
CN109933040A (zh) 基于层次密度峰值聚类和最相似模态的故障监测方法
WO2020253547A1 (zh) 一种模拟人工神经网络的基因电路及其构建方法
CN103838964B (zh) 一种基于人工交通系统的社交关系网络生成方法及装置
CN108491968A (zh) 基于农产品质量安全应急资源调度模型计算方法
CN104331738A (zh) 基于博弈和遗传算法的网络重构算法
CN106911512B (zh) 在可交换图中基于博弈的链接预测方法及系统
Chan et al. The large-sample asymptotic behaviour of quartet-based summary methods for species tree inference
CN115422993A (zh) 跨城市兴趣点分布数据迁移预测方法及系统
CN107526937A (zh) 一种基于协同滤波的MiRNA‑疾病关联预测方法
Karaaslanli et al. Multiview Graph Learning for single-cell RNA sequencing data
Hu et al. Sequence evolution under constraints: Lessons learned from sudoku

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151216

WD01 Invention patent application deemed withdrawn after publication