CN103268431A - 一种基于学生t分布的癌症亚型生物标志物检测系统 - Google Patents
一种基于学生t分布的癌症亚型生物标志物检测系统 Download PDFInfo
- Publication number
- CN103268431A CN103268431A CN2013101906733A CN201310190673A CN103268431A CN 103268431 A CN103268431 A CN 103268431A CN 2013101906733 A CN2013101906733 A CN 2013101906733A CN 201310190673 A CN201310190673 A CN 201310190673A CN 103268431 A CN103268431 A CN 103268431A
- Authority
- CN
- China
- Prior art keywords
- sigma
- gene
- log
- unit
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明涉及一种基于学生t分布的癌症亚型生物标志物检测系统,包括基因表达谱提取单元,从基因芯片中提取基因样本的表达谱;网络聚类模型建立单元,提取到的基因表达谱输入其中,建立混合模型并对其进行求解,其中混合模型使用多元学生t分布来描述每个成分;癌症亚型发现单元,利用混合模型和聚类方法发现新的癌症亚型;基因间相互关系探索单元,将每个基因看作是网络中的点,通过挖掘网络结构探索不同癌症亚型中基因间的相互关系;生物标志物检测单元,根据不同癌症亚型中基因间的相互关系完成与癌症亚型相关的生物标记物的检测。本发明使用多元学生t分布来描述混合模型中的每个成分,使得聚类、变量选择过程对异常点、噪声具有鲁棒性。
Description
技术领域
本发明涉及生物信息学、统计学习和模式识别领域,更具体地,涉及一种基于学生t分布的癌症亚型生物标志物检测系统。
背景技术
随着基因组表达谱数据的日益增加,芯片方法已经成为识别癌症相关基因以及发现新癌症亚型(子类)的关键技术。与病人的年龄、肿瘤大小、类固醇受体状态等临床和病理危险因素相比,对基因的研究能更深入地了解癌症的生理特性,并能更有效地侦测新的癌症亚型。这些癌症亚型可能在基因或蛋白质表达谱、基因调控或蛋白质信号网络等方面存在差异。从基因表达谱中检测这些癌症子类可被看作一个无监督的聚类问题,而寻找用于检测的基因可被看作一个基于高维无类标数据的变量选择问题。
当前,癌症亚型发现所面临的一个挑战是,这些癌症亚型间各种网络或途径水平的差异可能会使传统的基于基因表达谱差异的聚类方法变的不合适。侦测这些网络和途径对于理解基因的集体生物学功能以及它们对病人表型变化的影响有着非常重要的作用。除此之外,人们经常根据每个基因的判别能力,将它们独立的挑选出来。然而,基因通常需要和其它的基因相互作用,共同参与一些生物过程或分子功能。它们中有一些在基因表达谱上没有存在差异,但属于一个子网络,它具有总体的判别能力或是一个特定癌症亚型的有用途径。
现有很多聚类方法被用于分析基因表达数据,对生物样本进行划分。基于模型聚类方法(model-based clustering)具有固定的概率框架,其由于具有好的效果、解释性、并易于实施,而被广泛地应用于生物标志物和癌症亚型的检测。大部分方法通过对似然函数进行惩罚限制得到稀疏解,以达到基因选择的目的。现有较为常用的实现方案主要有以下几种:
(1)使用对角协方差的惩罚基于模型的高斯聚类系统,该系统所采取的算法假设每个聚类具有对角的协方差矩阵,因此基因间是独立的。虽然独立假设在真实生物数据中一般是不成立的,它仍能得到较好的聚类效果。模型中使用混合高斯分布来模拟每个聚类中的样本,并与一些惩罚函数相结合,例如L1惩罚、自适应性L1惩罚和成组L1惩罚。
(2)使用对角协方差的惩罚基于模型的学生t聚类模型系统,该系统借助自助法给出了根据基因对聚类贡献的基因排序方法。
(3)使用无限制协方差的惩罚基于模型的高斯聚类系统,其通过使用无限制协方差矩阵来考虑基因间的各种关系。利用图套索(graphical lasso),使用期望最大化(expectation maximization,EM)算法进行参数估计。其所运用的算法具有更好的癌症亚型和生物标志物检测性能。
(4)基于高斯混合模型的惩罚因子分析系统,其采用的算法介于对角和一般的协方差矩阵之间,类似于因子分析,该系统使用隐变量对协方差矩阵进行建模。与基于无限制协方差矩阵的系统相比,该系统的模型更为复杂,并具有更多的限制。然而,当基因表达谱数据中,协方差矩阵的隐变量诱导假设成立时,该模型具有更好的效果。
但上述系统中存在如下的某些缺点:
由于高斯分布的概率密度函数是基于样本与均值的偏差平方,以上基于高斯分布的系统对异常点较为敏感。而鉴于一些化学或电气原因,基因表达数据中经常包含异常点。另外,使用对角协方差假设的系统忽略了癌症亚型中基因间的相关性。并且,传统的惩罚基于模型聚类算法都以均值为选择基因的标准,而忽略了它们对网络和路径的影响,这对理解基因的集体生物学功能是非常不利的。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种对噪声、异常点有良好鲁棒性的基于学生t分布的癌症亚型生物标志物检测系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于学生t分布的癌症亚型生物标志物检测系统,包括:
基因表达谱提取单元,从基因芯片中提取n个独立的包含d个基因的样本的表达谱χ={x1,…;xn},其中xi=[xi1 xi2 … xid]表示样本i中d个基因的表达谱;
网络聚类模型建立单元,与基因表达谱提取单元连接,提取到的基因表达谱χ={x1,…,xn}输入其中,建立混合模型并对该混合模型进行求解,其中,该混合模型使用多元学生t分布来描述混合模型中的每个成分;
癌症亚型发现单元,与网络聚类模型建立单元连接,其利用混合模型和聚类方法发现新的癌症亚型;
基因间相互关系探索单元,与癌症亚型发现单元连接,将每个基因看作是网络中的点,通过挖掘网络结构探索不同癌症亚型中基因间的相互关系;
生物标志物检测单元,根据不同癌症亚型中基因间的相互关系完成与癌症亚型相关的生物标记物的检测。
上述方案中,网络聚类模型建立单元中建立混合模型过程如下:
假设每个样本xi来自于具有K个成分的混合分布,其概率密度函数如下:
假设每个成分fk的参数集合为θk={μk,Σk,vk}的多元学生t分布T(μk,Σk,vk),其中μk=[μk1 μk2 … μkd]为位置参数矩阵,Σk=(σk,jl)d×d为尺度参数,而vk为自由度,多元学生t分布的概率密度函数为:
记尺度参数矩阵Σk的逆为Wk={Wk,jl}d×d,对每个μkj以及Wk={Wk,jl}d×d的非对角元素进行自适应的L1惩罚;基于由对数似然函数l(Ψ)和惩罚部分Penλ(φ)组成的惩罚对数似然函数,得到模型的目标函数:
其中,φ={μ1,…,μK,W1,…,WK},λ={λ1λ2}包括了对应于μk和Wk的非负正则化参数λ1和λ2,其预先设定并通过外部输入,wkj、vk,jl分别为对应于μkj和Wk,jl的惩罚的权重。
上述方案中,网络聚类模型建立单元中对混合模型的求解过程如下:
给定K和λ,使用期望最大化算法对目标函数lpen(Ψ)进行优化:假设每个样本xi对应于一个无法观察到的指标向量zi=[zi1 zi2 … ziK],指定xi所属的成分;如果xi来自于成分k,则zik=1,否则zik=0;引入另一个隐变量ui=[ui1 ui2 … uiK],其中,每个uik服从Gamma分布;则算法中样本xi完整的数据变为其对应的惩罚完整数据对数似然函数可被分解为四个部分:
lc,pen(Ψ)=l1(π)+l2(v)+l3(φ)-penλ(φ),
其中
执行期望最大化算法期望步,在已知第t次迭代的参数估计Ψ(t)的情况下,计算lc,pen(Ψ)的期望Q(Ψ;Ψ(t)),其中先求得EΨ(t)(zik|xi)、EΨ(t)(uik|xi,zik=1)和EΨ(t)(loguik|xi,zik=1);
鉴于Gamma分布是高斯分布的共轭先验,有
其中 是Digamma函数;
执行期望最大化算法最大化步,得到各个参数的更新:
vk在第t+1次迭代的估计满足等式:
其中
在t+1步,定义自适应的权重为:
则 否则
进一步,得到有关Wk的优化问题
其中
该优化问题使用图套索求解。
上述方案中,网络聚类模型建立单元基于证据近似权重准则进行混合模型的选择,具体为:估计三个参数,聚类的个数K、惩罚参数λ1和λ2,使用证据近似权重准则进行模型选择,
AWE=-2l(Ψ)+2de(3/2+log(n)),
其中de=K-1+K+Kd-q1+Ks+Kd(d-l)/2-q2/2是混合模型中有效参数的个数,q1=#{(k,j):μkj=0),q2=#{(k,j,l):Wk,lj=0},通过网格搜索法寻找使AWE最小的最优组合(K,λλ,λ2),n为样本个数,d为每个样本的基因的个数,i(Ψ)为对数似然函数。
上述方案中,癌症亚型发现单元发现癌症亚型的过程如下:
通过网络聚类模型建立单元对混合模型中参数进行估计之后,聚类被定义为服从相似分布的样本,样本的分布由后验概率τik决定;给定样本xi,将其聚类为使后验概率最大的类,即yi=arg maxk τik;获取属于相同类的样本组成的集合判断为新的癌症亚型。
上述方案中,基因间相互关系探索单元探索不同癌症亚型中基因间的相互关系的过程为:
将不同癌症亚型的每个基因看作是网络中的点,由尺度矩阵的逆Wk来决定点与点间的边,若Wk,jl≠0,则对应聚类k的网络中,j和l相连,否则j和l不相连;该网络中单连通的点集以及它们之间的边构成一系列的子网络;在每个聚类中不同的子网络表示不同癌症亚型中基因间的关系。
上述方案中,生物标志物检测单元检测癌症亚型相关的生物标记物的过程如下:
从基因间相互关系探索单元中获得一系列的子网络;
由于噪声基因和有信息基因间是不相关的,如果一个子网络中存在一个基于均值的有判别力基因,判断它是一个子网络生物标志物,从而识别出在基因表达谱上不存在差异的基因,所述不存在差异的基因与有判别能力的基因相关,共同完成一项生物功能;
最后,在剩下的子网络中,若其在各个聚类对应的W1,…,WK上存在差异,则判断该子网络为生物标志物;
将检测到的生物标志物数据输出。
与现有技术相比,本发明技术方案的有益效果是:
(1)利用本发明提供的系统可以检测到与癌症亚型相关的生物标记物,简单方便。
(2)本发明所提供的系统使用多元学生t分布来描述混合模型中的每个成分,使得系统不会受极端或异常基因影响,从而使得聚类、变量选择过程对异常点具有鲁棒性,能更好的处理基因表达谱中包含的噪音,利用本发明的系统能够发现真实的癌症亚型以及检测在生物化学或生物医学研究中得到验证的与癌症亚型相关生物标志物。
(3)本发明所提供的系统使用无限制协方差矩阵来考虑基因间的关系,这更有利于仿真基因间存在的相互联系,通过对均值和协方差的逆进行自适应的L1惩罚来实现生物标志物检测以及基因间的网络重构,并进一步借助图套索,使用期望最大化算法来拟合模型。
(4)本发明所提供的系统提供了基于网络的基因选择准则,其能够识别出具有较低判别能力,但和有判别能力的基因相关或具有聚类特定的网络结构,从而能够更加准确地识别出与癌症亚型相关的生物标记物。
附图说明
图1为本发明的一种基于学生t分布的癌症亚型生物标志物检测系统实施例的架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,为本发明的一种基于学生t分布的癌症亚型生物标志物检测系统实施例的架构图。参见图1,本实施例的一种基于学生t分布的癌症亚型生物标志物检测系统,包括:
基因表达谱提取单元100,从基因芯片中提取n个独立的包含d个基因的样本的表达谱X={x1,…,xn},其中xi=[xi1 xi2 … xid]表示样本i中d个基因的表达谱;每个基因均预先经标准化处理,样本均值为0,样本方差为1。
网络聚类模型建立单元101,与基因表达谱提取单元100连接,提取到的基因表达谱X={x1,…,xn}输入其中,建立混合模型并对该混合模型进行求解,其中,该混合模型使用多元学生t分布来描述混合模型中的每个成分;
癌症亚型发现单元102,与网络聚类模型建立单元101连接,其利用混合模型和聚类方法发现新的癌症亚型;
基因间相互关系探索单元103,与癌症亚型发现单元102连接,将每个基因看作是网络中的点,通过挖掘网络结构探索不同癌症亚型中基因间的相互关系;
生物标志物检测单元104,与基因间相互关系探索单元103连接,根据不同癌症亚型中基因间的相互关系完成与癌症亚型相关的生物标记物的检测。
其中,网络聚类模型建立单元101中建立混合模型过程如下:
假设每个样本xi来自于具有K个成分的混合分布,其概率密度函数如下:
假设每个成分fk的参数集合为θk={μk,Σk,vk}的多元学生t分布T(μk,Σk,vk),其中μk=[μk1 μk2 … μkd]为位置参数矩阵,Σk=(σk,jl)d×d为尺度参数,而vk为自由度,多元学生t分布的概率密度函数为:
其中Γ(·)为Gamma函数, 表示xi和μk间的马氏距离,每个学生t分布的均值和协方差矩阵分别为μk和d表示每个样本包含的基因的个数,j和l是矩阵Σk中元素所在的位置,π为圆周率;此处系统的网络聚类模型建立单元101使用学生t分布模拟数据;
记尺度参数矩阵Σk的逆为Wk={Wk,jl}d×d,对每个μkj以及Wk={Wk,jl}d×d的非对角元素进行自适应的L1惩罚;基于由对数似然函数l(Ψ)和惩罚部分penλ(φ)组成的惩罚对数似然函数,得到模型的目标函数:
其中,φ={μ1,…,μK,W1,…,WK},λ={λ1,λ2}包括了对应于λk和Wk的非负正则化参数λ1和λ2,其预先设定并通过外部输入,wkj、vk,jl分别为对应于μkj和Wk,jl的惩罚的权重。
其中,网络聚类模型建立单元101中对混合模型的求解过程如下:
给定K和λ,使用期望最大化算法对目标函数lpen(Ψ)进行优化:假设每个样本xi对应于一个无法观察到的指标向量zi=[zi1 zi2 … ziK],指定xi所属的成分;如果xi来自于成分k,则zik=1,否则zik=0;引入另一个隐变量ui=[ui1 ui2 … uiK],其中,每个uik服从Gamma分布;则算法中样本xi完整的数据变为其对应的惩罚完整数据对数似然函数可被分解为四个部分:
lc,pen(Ψ)=l1(π)+l2(v)+l3(φ)-penλ(φ), (4)
其中
执行期望最大化算法期望步,在已知第t次迭代的参数估计Ψ(t)的情况下,计算lc,pen(Ψ)的期望Q(Ψ;Ψ(t)),其中先求得EΨ(t)(zik|xi)、EΨ(t)(uik|xi,zik=1)和EΨ(t)(log uik|xi,zik=1);
鉴于Gamma分布是高斯分布的共轭先验,有
其中 是Digamma函数;
执行期望最大化算法最大化步,得到各个参数的更新:
vk在第t+1次迭代的估计满足等式:
(12)
其中
在t+1步,定义自适应的权重为:
则 否则
(15)
进一步,得到有关Wk的优化问题
其中
该优化问题使用图套索求解。
其中,网络聚类模型建立单元101基于证据近似权重(approximate weight ofevidence,AWE)准则进行混合模型的选择,具体为:估计三个参数,聚类的个数K、惩罚参数λ1和λ2,使用证据近似权重准则进行模型选择,
AWE=-2l(Ψ)+2de(3/2+log(n)), (17)
其中de=k-1+K+Kf-q1+kd+Kd(d-1)/2-q2/2是混合模型中有效参数的个数,q1=#{(k,j):μkj=0},q2=#{(k,j,l):Wk,lj=0},通过网格搜索法寻找使AWE最小的最优组合(K,λ1,λ2),n为样本个数,d为每个样本的基因的个数,l(Ψ)为对数似然函数。
其中,癌症亚型发现单元102发现癌症亚型的过程如下:
通过网络聚类模型建立单元101对混合模型中参数进行估计之后,聚类被定义为服从相似分布的样本,样本的分布由后验概率τik决定;给定样本xi,将其聚类为使其后验概率最大的类,即yi=arg maxk τik;获取属于相同类的样本组成的集合判断为新的癌症亚型。
其中,基因间相互关系探索单元103探索不同癌症亚型中基因间的相互关系的过程为:
将不同癌症亚型的每个基因看作是网络中的点,由尺度矩阵的逆Wk来决定点与点间的边,若Wk,jl≠0,则对应聚类k的网络中,j和l相连,否则j和l不相连;该网络中单连通的点集以及它们之间的边构成一系列的子网络;在每个聚类中不同的子网络表示不同癌症亚型中基因间的关系。
其中,生物标志物检测单元104检测癌症亚型相关的生物标记物的过程如下:
从基因间相互关系探索单元中获得一系列的子网络;
由于噪声基因和有信息基因间是不相关的,如果一个子网络中存在一个基于均值的有判别力基因,判断它是一个子网络生物标志物,从而识别出在基因表达谱上不存在差异的基因,所述不存在差异的基因与有判别能力的基因相关,共同完成一项生物功能;
最后,在剩下的子网络中,若其在各个聚类对应的W1,…,WK上存在差异,则判断该子网络为生物标志物;
将检测到的生物标志物数据输出。
本发明所提供的系统鉴于基因间网络或路径、和高维基因表达数据集中包含的异常点所带来的挑战,以及以上方法应用于基因表达数据集时存在的弊端,本发明的系统使用无限制协方差的惩罚基于模型的学生t聚类,用于与癌症相关生物标志物的检测,并探索基因间的关系。使用多元学生t分布来模拟样本的生成过程,使得系统不会受极端或异常基因影响。使用无限制的协方差代替对角的协方差,用于考虑基因间的关系从而发现那些在网络结构上存在差异的癌症子类。通过对均值和协方差矩阵的逆进行自适应的L1惩罚,达到生物标志物检测以及网络重构的目的。此外,本发明的系统还提供了一种新的基因选择准则,用于检测如下的生物标志物:在不同的癌症亚型中具有不同均值的基因、在基因表达谱上不存在差异但与其它有判别信息的基因相互作用共同完成一项生物功能、以及具有不同网络结构的基因。
在上述方案中,本发明的系统主要是基于如下算法构建整个架构,以完成于癌症亚型相关的生物标记物的检测,具体算法为:
1)使用K均值聚类初始化每个样本属于的癌症子类;
2)分别使用常数、样本概率、样本均值、和对应于样本协方差矩阵的对角阵的逆来初始化vk、πk、μk和Wk。
3)根据上述式(8)和(9)计算τik和uik;
4)根据上述式(13)计算权重wkj和vk,jl;
5)根据上述式(11)、(12)、(14)‐(16)更新πk、vk、μk和Wk;
6)重复步骤(3)‐(5)直到|lpen(Ψ(t+1))-lpen(Ψ(t))|<10-6;
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种基于学生t分布的癌症亚型生物标志物检测系统,其特征在于,包括:
基因表达谱提取单元,从基因芯片中提取n个独立的包含d个基因的样本的表达谱χ={x1,…,xn},其中xi=[xi1 xi2 … xid]表示样本i中d个基因的表达谱;
网络聚类模型建立单元,与基因表达谱提取单元连接,提取到的基因表达谱χ={x1,…,xn}输入其中,建立混合模型并对该混合模型进行求解,其中,该混合模型使用多元学生t分布来描述混合模型中的每个成分;
癌症亚型发现单元,与网络聚类模型建立单元连接,其利用混合模型和聚类方法发现新的癌症亚型;
基因间相互关系探索单元,与癌症亚型发现单元连接,将每个基因看作是网络中的点,通过挖掘网络结构探索不同癌症亚型中基因间的相互关系;
生物标志物检测单元,根据不同癌症亚型中基因间的相互关系完成与癌症亚型相关的生物标记物的检测。
2.根据权利要求1所述的基于学生t分布的癌症亚型生物标志物检测系统,其特征在于,网络聚类模型建立单元中建立混合模型过程如下:
假设每个样本xi来自于具有K个成分的混合分布,其概率密度函数如下:
假设每个成分fk的参数集合为θk={μk,Σk,vk}的多元学生t分布T(μk,Σk,vk),其中μk=[μk1 μk2 … μkd]为位置参数矩阵,Σk=(σk,jl)d×d为尺度参数,而vk为自由度,多元学生t分布的概率密度函数为:
其中Γ(·)为Gamma函数, 表示xi和μk间的马氏距离,每个学生t分布的均值和协方差矩阵分别为μk和d表示每个样本包含的基因的个数,j和l是矩阵Σk中元素所在的位置,π为圆周率;
记尺度参数矩阵Σk的逆为Wk={Wk,jl}d×d,对每个μkj以及Wk={Wk,jl}d×d的非对角元素进行自适应的L1惩罚;基于由对数似然函数l(Ψ)和惩罚部分penλ(φ)组成的惩罚对数似然函数,得到模型的目标函数:
其中,φ={μ1,…,μK,W1,…,WK},λ={λ1,λ2}包括了对应于μk和Wk的非负正则化参数λ1和λ2,其预先设定并通过外部输入,wkj、vk,jl分别为对应于μkj和Wk,jl的惩罚的权重。
3.根据权利要求2所述的基于学生t分布的癌症亚型生物标志物检测系统,其特征在于,网络聚类模型建立单元中对混合模型的求解过程如下:
给定K和λ,使用期望最大化算法对目标函数lpen(Ψ)进行优化:假设每个样本xi对应于一个无法观察到的指标向量zi=[zi1 zi2 … ziK],指定xi所属的成分;如果xi来自于成分k,则zik=1,否则zik=0;引入另一个隐变量ui=[ui1 ui2 … uiK],其中,每个uik服从Gamma分布;则算法中样本xi完整的数据变为其对应的惩罚完整数据对数似然函数可被分解为四个部分:
lc,pen(Ψ)=l1(π)+l2(v)+l3(φ)-penλ(φ),
其中
执行期望最大化算法期望步,在已知第t次迭代的参数估计Ψ(t)的情况下,计算lc,pen(Ψ)的期望Q(Ψ;Ψ(t)),其中先求得EΨ(t)(zik|xi)、EΨ(t)(uik|xi,zik=1)和EΨ(t)(loguik|xi,zik=1);
被看作为xi属于第k个聚类的后验概率;
鉴于Gamma分布是高斯分布的共轭先验,有
其中 是Digamma函数;
执行期望最大化算法最大化步,得到各个参数的更新:
vk在第t+1次迭代的估计满足等式:
在t+1步,定义自适应的权重为:
则 否则
进一步,得到有关Wk的优化问题
其中
该优化问题使用图套索求解。
4.根据权利要求3所述的基于学生t分布的癌症亚型生物标志物检测系统,其特征在于,网络聚类模型建立单元基于证据近似权重准则进行混合模型的选择,具体为:估计三个参数,聚类的个数K、惩罚参数λ1和λ2,使用证据近似权重准则进行模型选择,
AWE=-2l(Ψ)+2de(3/2+log(n)),
其中de=K-1+K+Kd-q1+Kd+Kd(d-l)/2-q2/2是混合模型中有效参数的个数,q1=#{(k,j):μkj=0},q2=#{(k,j,l):Wk,lj=0},通过网格搜索法寻找使AWE最小的最优组合(K,λ1,λ2),n为样本个数,d为每个样本的基因的个数,l(Ψ)为对数似然函数。
5.根据权利要求4所述的基于学生t分布的癌症亚型生物标志物检测系统,其特征在于,癌症亚型发现单元发现癌症亚型的过程如下:
通过网络聚类模型建立单元对混合模型中参数进行估计之后,聚类被定义为服从相似分布的样本,样本的分布由后验概率τik决定;给定样本xi,将其聚类为使其后验概率最大的类,即yi=arg maxk τik;获取属于相同类的样本组成的集合判断为新的癌症亚型。
6.恨掂权利要求5所述的基于学生t分布的癌症亚型生物标志物检测系统,其特征在于,基因间相互关系探索单元探索不同癌症亚型中基因间的相互关系的过程为:
将不同癌症亚型的每个基因看作是网络中的点,由尺度矩阵的逆Wk来决定点与点间的边,若Wk,jl≠0,则对应聚类k的网络中,j和l相连,否则j和l不相连;该网络中单连通的点集以及它们之间的边构成一系列的子网络;在每个聚类中不同的子网络表示不同癌症亚型中基因间的关系。
7.根据权利要求6所述的基于学生t分布的癌症亚型生物标志物检测系统,其特征在于,生物标志物检测单元检测癌症亚型相关的生物标记物的过程如下:
从基因间相互关系探索单元中获得一系列的子网络;
由于噪声基因和有信息基因间是不相关的,如果一个子网络中存在一个基于均值的有判别力基因,判断它是一个子网络生物标志物,从而识别出在基因表达谱上不存在差异的基因,所述不存在差异的基因与有判别能力的基因相关,共同完成一项生物功能;
最后,在剩下的子网络中,若其在各个聚类对应的W1,…,WK上存在差异,则判断该子网络为生物标志物;
将检测到的生物标志物数据输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310190673.3A CN103268431B (zh) | 2013-05-21 | 2013-05-21 | 一种基于学生t分布的癌症亚型生物标志物检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310190673.3A CN103268431B (zh) | 2013-05-21 | 2013-05-21 | 一种基于学生t分布的癌症亚型生物标志物检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103268431A true CN103268431A (zh) | 2013-08-28 |
CN103268431B CN103268431B (zh) | 2016-07-06 |
Family
ID=49012059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310190673.3A Expired - Fee Related CN103268431B (zh) | 2013-05-21 | 2013-05-21 | 一种基于学生t分布的癌症亚型生物标志物检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103268431B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462379A (zh) * | 2014-12-10 | 2015-03-25 | 深圳大学 | 一种基于距离的高准确率全局离群点检测算法 |
WO2015110018A1 (zh) * | 2014-01-21 | 2015-07-30 | 中国科学院上海生命科学研究院 | 用于对前疾病状态进行检测的检测装置及检测方法 |
CN104978497A (zh) * | 2015-06-24 | 2015-10-14 | 中国科学院昆明动物研究所 | 一种大样本高通量生物数据关联分析方法 |
CN105160208A (zh) * | 2015-05-29 | 2015-12-16 | 杭州奥视图像技术有限公司 | 用于疾病亚型问题的基于网络的聚类方法 |
CN105335626A (zh) * | 2015-10-26 | 2016-02-17 | 河南师范大学 | 一种基于网络分析的群lasso特征分群方法 |
CN105938524A (zh) * | 2016-04-26 | 2016-09-14 | 清华大学 | 一种微生物关联网络预测方法及装置 |
CN107025387A (zh) * | 2017-03-29 | 2017-08-08 | 电子科技大学 | 一种用于癌症生物标志物识别的方法 |
CN107301328A (zh) * | 2017-05-19 | 2017-10-27 | 浙江工业大学 | 基于数据流聚类的癌症亚型精准发现与演化分析方法 |
CN107992720A (zh) * | 2017-12-14 | 2018-05-04 | 浙江工业大学 | 基于共表达网络的癌症靶向标志物测绘方法 |
TWI630501B (zh) * | 2016-07-29 | 2018-07-21 | 長庚醫療財團法人林口長庚紀念醫院 | Establishment of a cancer prediction model and a method for analyzing cancer detection results in combination with a tumor marker set |
CN109101783A (zh) * | 2018-08-14 | 2018-12-28 | 温州大学 | 一种基于概率模型的癌症网络标志物确定方法及系统 |
CN110326051A (zh) * | 2017-03-03 | 2019-10-11 | 通用电气公司 | 用于识别生物样本中的表达区别要素的方法 |
CN110322930A (zh) * | 2019-06-06 | 2019-10-11 | 大连理工大学 | 基于水平关系的代谢组学网络标志物识别方法 |
CN113706376A (zh) * | 2020-09-25 | 2021-11-26 | 天翼智慧家庭科技有限公司 | 一种图像超分辨率重建方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101105841A (zh) * | 2007-02-12 | 2008-01-16 | 浙江大学 | 由大规模基因芯片表达谱数据构建基因调控亚网络的方法 |
US20100285980A1 (en) * | 2009-05-01 | 2010-11-11 | Steven Shak | Gene expression profile algorithm and test for likelihood of recurrence of colorectal cancer and response to chemotherapy |
-
2013
- 2013-05-21 CN CN201310190673.3A patent/CN103268431B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101105841A (zh) * | 2007-02-12 | 2008-01-16 | 浙江大学 | 由大规模基因芯片表达谱数据构建基因调控亚网络的方法 |
US20100285980A1 (en) * | 2009-05-01 | 2010-11-11 | Steven Shak | Gene expression profile algorithm and test for likelihood of recurrence of colorectal cancer and response to chemotherapy |
Non-Patent Citations (3)
Title |
---|
李小波: "数学建模及数据挖掘方法在结直肠癌转移机制研究中的应用", 《中国博士学位论文全文数据库医药卫生科技辑》 * |
王士同: "基于模型的基因表达聚类分析技术研究进展", 《江南大学学报》 * |
黄德双: "《基因表达谱数据挖掘》", 31 March 2009, 科学出版社 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015110018A1 (zh) * | 2014-01-21 | 2015-07-30 | 中国科学院上海生命科学研究院 | 用于对前疾病状态进行检测的检测装置及检测方法 |
CN104462379A (zh) * | 2014-12-10 | 2015-03-25 | 深圳大学 | 一种基于距离的高准确率全局离群点检测算法 |
CN105160208A (zh) * | 2015-05-29 | 2015-12-16 | 杭州奥视图像技术有限公司 | 用于疾病亚型问题的基于网络的聚类方法 |
CN104978497A (zh) * | 2015-06-24 | 2015-10-14 | 中国科学院昆明动物研究所 | 一种大样本高通量生物数据关联分析方法 |
CN104978497B (zh) * | 2015-06-24 | 2019-01-29 | 中国科学院昆明动物研究所 | 一种大样本高通量生物数据关联分析方法 |
CN105335626B (zh) * | 2015-10-26 | 2018-03-16 | 河南师范大学 | 一种基于网络分析的群lasso特征分群方法 |
CN105335626A (zh) * | 2015-10-26 | 2016-02-17 | 河南师范大学 | 一种基于网络分析的群lasso特征分群方法 |
CN105938524A (zh) * | 2016-04-26 | 2016-09-14 | 清华大学 | 一种微生物关联网络预测方法及装置 |
TWI630501B (zh) * | 2016-07-29 | 2018-07-21 | 長庚醫療財團法人林口長庚紀念醫院 | Establishment of a cancer prediction model and a method for analyzing cancer detection results in combination with a tumor marker set |
CN110326051B (zh) * | 2017-03-03 | 2023-11-14 | 环球生命科学解决方案运营英国有限公司 | 用于识别生物样本中的表达区别要素的方法和分析系统 |
CN110326051A (zh) * | 2017-03-03 | 2019-10-11 | 通用电气公司 | 用于识别生物样本中的表达区别要素的方法 |
CN107025387B (zh) * | 2017-03-29 | 2020-09-18 | 电子科技大学 | 一种用于癌症生物标志物识别的方法 |
CN107025387A (zh) * | 2017-03-29 | 2017-08-08 | 电子科技大学 | 一种用于癌症生物标志物识别的方法 |
CN107301328A (zh) * | 2017-05-19 | 2017-10-27 | 浙江工业大学 | 基于数据流聚类的癌症亚型精准发现与演化分析方法 |
CN107301328B (zh) * | 2017-05-19 | 2021-04-06 | 浙江工业大学 | 基于数据流聚类的癌症亚型精准发现与演化分析方法 |
CN107992720B (zh) * | 2017-12-14 | 2021-08-03 | 浙江工业大学 | 基于共表达网络的癌症靶向标志物测绘方法 |
CN107992720A (zh) * | 2017-12-14 | 2018-05-04 | 浙江工业大学 | 基于共表达网络的癌症靶向标志物测绘方法 |
CN109101783B (zh) * | 2018-08-14 | 2020-09-04 | 温州大学 | 一种基于概率模型的癌症网络标志物确定方法及系统 |
CN109101783A (zh) * | 2018-08-14 | 2018-12-28 | 温州大学 | 一种基于概率模型的癌症网络标志物确定方法及系统 |
CN110322930A (zh) * | 2019-06-06 | 2019-10-11 | 大连理工大学 | 基于水平关系的代谢组学网络标志物识别方法 |
CN110322930B (zh) * | 2019-06-06 | 2021-12-03 | 大连理工大学 | 基于水平关系的代谢组学网络标志物识别方法 |
CN113706376A (zh) * | 2020-09-25 | 2021-11-26 | 天翼智慧家庭科技有限公司 | 一种图像超分辨率重建方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103268431B (zh) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103268431A (zh) | 一种基于学生t分布的癌症亚型生物标志物检测系统 | |
CN106658590A (zh) | 基于WiFi信道状态信息多人室内环境状态监控系统的设计与实现 | |
CN109934269A (zh) | 一种电磁信号的开集识别方法和装置 | |
CN110322930B (zh) | 基于水平关系的代谢组学网络标志物识别方法 | |
Karim et al. | OncoNetExplainer: explainable predictions of cancer types based on gene expression data | |
CN106202999B (zh) | 基于不同尺度tuple词频的微生物高通量测序数据分析协议 | |
CN108197431B (zh) | 染色质相互作用差异的分析方法和系统 | |
CN104463251A (zh) | 基于集成极端学习机的肿瘤基因表达谱数据识别方法 | |
CN103455612A (zh) | 基于两阶段策略的非重叠与重叠网络社区检测方法 | |
CN104156503A (zh) | 一种基于基因芯片网络分析的疾病风险基因识别方法 | |
CN104616022A (zh) | 一种近红外光谱的分类方法 | |
Hwang et al. | Identification of differentially expressed subnetworks based on multivariate ANOVA | |
CN105139037A (zh) | 基于最小生成树的集成多目标进化自动聚类方法 | |
CN102880881A (zh) | 一种基于二类支持向量机和遗传算法的轿车车型识别方法 | |
Wang et al. | Hypergraph based geometric biclustering algorithm | |
KR102376212B1 (ko) | 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 | |
CN104123538A (zh) | 一种基于视觉词袋的网络不良图像检测方法 | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
Ghai et al. | Proximity measurement technique for gene expression data | |
CN104537667A (zh) | 基于方向多目标遗传聚类算法的图像分割方法 | |
Kostadinova | Data Integration: an approach to improve the preprocessing and analysis of gene expression data | |
Shi et al. | Semi-supervised learning protein complexes from protein interaction networks | |
Datta et al. | A neural network based approach for protein structural class prediction | |
Zeinalzadeh et al. | Integrated analysis of multiple high-dimensional data sets by joint rank-1 matrix approximations | |
Wahyudi et al. | Robust consensus clustering for identification of expressed genes linked to malignancy of human colorectal carcinoma |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160706 Termination date: 20190521 |