CN104573411A - 一种标志物相关性可视化方法以及装置 - Google Patents

一种标志物相关性可视化方法以及装置 Download PDF

Info

Publication number
CN104573411A
CN104573411A CN201410853550.8A CN201410853550A CN104573411A CN 104573411 A CN104573411 A CN 104573411A CN 201410853550 A CN201410853550 A CN 201410853550A CN 104573411 A CN104573411 A CN 104573411A
Authority
CN
China
Prior art keywords
mark
sample
classification
ratio
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410853550.8A
Other languages
English (en)
Other versions
CN104573411B (zh
Inventor
周丰丰
孟庆汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201410853550.8A priority Critical patent/CN104573411B/zh
Publication of CN104573411A publication Critical patent/CN104573411A/zh
Application granted granted Critical
Publication of CN104573411B publication Critical patent/CN104573411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种标志物相关性可视化方法以及装置。所述方法包括:根据第i个标志物的多个采样样本计算第i个标志物的费舍尔比率;重复上一个步骤,直到求出每个的标志物的费舍尔比率;根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离;重复上一个步骤,直到求出任意两个标志物之间的距离;将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标,进而使得标志物相关性可视化。

Description

一种标志物相关性可视化方法以及装置
技术领域
本发明涉及生物技术领域,尤其涉及一种标志物相关性可视化方法以及装置。
背景技术
基因表达谱等生物数据往往具有几万甚至数十万个标志物,其中,标志物反应了生物的一方面化学、生物类物质的性质。对这些标志物进行相关性检测分析是很多研究的基础。在现有技术中,通常是在二维空间利用相似性矩阵来表达标志物之间的关系。其中,相似性矩阵的行坐标a和列坐标b都是标志物,而相似性矩阵中的第a行第b列的元素值,代表第a个标志物和第b个标志物之间的相似性。相似性的度量往往有很多种,比如相关系数,欧拉距离,余弦函数等。
在这种方式下,使用者每次只能观察两个标志物之间的相关性,例如,要观察第a个标志物和第b个标志物之间的相似性,可以通过观察相似性矩阵中的第a行第b列的元素值。但是,如果要求同时观察三个或者更多的标志物之间的相关性,则无法通过二维的相似矩阵进行观察,而必须在更高维的空间才能进行观察。例如,要观察三个标志物的相关性,则必须在三维空间进行观察;要观察四个标志物的相关性,则必须在三维空间进行观察,等等。所以,当生物数据包含几万甚至数十万个标志物,空间维数将复杂得超乎思维可以想象的程度。
发明内容
本发明实施例所要解决的技术问题在于,提供一种标志物相关性可视化方法以及装置,实现了将所有标志物的相关性降维至可视化的低维度进行显示。
本发明第一方面提供了一种标志物相关性可视化方法,包括:
根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
重复上一个步骤,直到求出每个的标志物的费舍尔比率;
根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
重复上一个步骤,直到求出任意两个标志物之间的距离;
将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;
根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标,进而使得所述标志物相关性可视化。
其中,根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率之前包括:
根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本;
根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率具体为:
根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
其中,根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本具体为:
根据进行归一化计算,以得到多个归一化后的采样样本,其中,Xi为所述第i个标志物的多个采样样本所组成的向量,ui为所述第i个标志物的多个采样样本的平均值,ρi为所述第i个标志物的多个采样样本的标准差,Xi'为多个归一化后的采样样本所组成的向量。
其中,根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率具体为:
根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,Xi'j为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值;
根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差;
根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值;
根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差;
根据计算第i个标志物的费舍尔比率。
其中,根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离具体为:
根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,X'a j为所述第a个标志物第j个归一化后的采样样本的值,Xb'j为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
其中,所述降维后的维度为2维或者3维。
其中,每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例。
本发明第二方面提供了一种标志物相关性可视化装置,包括:
费舍尔比率模块,用于根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
距离模块,用于根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
坐标值模块,用于将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;
散点图模块,用于根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标,进而使得所述标志物相关性可视化。
其中,所述装置还包括归一化模块,
所述归一化模块用于根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本;
所述费舍尔比率模块用于根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
其中,所述归一化模块具体用于根据进行归一化计算,以得到多个归一化后的采样样本,其中,Xi为所述第i个标志物的多个采样样本所组成的向量,ui为所述第i个标志物的多个采样样本的平均值,ρi为所述第i个标志物的多个采样样本的标准差,Xi'为多个归一化后的采样样本所组成的向量。
其中,所述费舍尔比率模块包括:
第一计算单元,用于根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,Xi'j为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值;
第二计算单元,用于根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差;
第三计算单元,用于根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值;
第四计算单元,用于根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差;
第五计算单元,用于根据计算第i个标志物的费舍尔比率。
其中,所述距离模块具体用于根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,X'a j为所述第a个标志物第j个归一化后的采样样本的值,Xb'j为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
其中,所述降维后的维度为2维或者3维。
其中,每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例。
通过实施本发明实施例,通过计算每个标志物的费舍尔比率从而获得每个标志物在散点图上的大小,又通过将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入进行降维,从而获得每个标志物的坐标值,进而获得每个标志物在散点图上的坐标,并根据每个标志物的大小和每个标志物的坐标构成散点图,从而实现了将所有标志物的相关性降维至可视化的低维度进行显示。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明标志物相关性可视化方法一实施方式的流程图;
图2是本发明标志物相关性可视化方法中计算费舍尔比率的一实施方式的流程图;
图3是本发明标志物相关性可视化方法的一实验结果的散点图;
图4是本发明标志物相关性可视化方法的另一实验结果的散点图;
图5是本发明标志物相关性可视化装置一实施方式的结构示意图;
图6是本发明标志物相关性可视化装置中费舍尔比率模块一实施方式的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
参见图1,图1是本发明标志物相关性可视化方法一实施方式的流程图。该方法包括:
110:根据第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本。
具体地,通过生物技术可以知道,某些疾病是通常可以通过人体的基因表达谱等生物数据上的标志物反映出来的。但是,具体的某种疾病和标志物之间的关系是需要通过研究分析才能获得的。为了识别疾病与标志物之间的关系,可以对N个人体进行数据采集。其中,采集的人体中,既有正常的人体,也有患病的人体,而且正常的人体记作类别为0,患病的人体记作类别为1。由于不知道某种疾病和标志物之间的具体关系,所以,在进行数据采集时,必须对与该种疾病可能相关的M个标志物都进行采集。例如,为了研究某种结肠的疾病,则必须对与结肠相关的所有标志物都进行采集。
可以理解的是,进行数据采集时,采集的人体数量N,和每个人体所采集的标志物的数量M都可以根据实际的研究需要而设置,本发明不作具体限定。
采集完数据后,每个标志物都有对应有N个采样样本,但是,这些采样样本所用的度量单位可能是不一样的,所以,必须进行归一化处理,以得到N个归一化后的采样样本。在一具体的实施方式中,可以通过根据进行归一化计算,以得到第i个标志物的多个归一化后的采样样本。其中,i为正整数,i小于或等于M,M为标志物的数量,Xi为第i个标志物的多个采样样本所组成的向量,ui为第i个标志物的多个采样样本的平均值,ρi为第i个标志物的多个采样样本的标准差,Xi'为多个归一化后的采样样本所组成的向量。对所有的标志物都进行归一化处理。
120:根据第i个标志物的多个归一化后的采样样本计算第i个标志物的费舍尔比率。
具体地,每个标志物的费舍尔比率能够反应该标志物对不同类人体(正常的人体和患病人体,即标记为0的人体和标记为1的人体)的区分能力。标志物的费舍尔比率越大,则表示这个标志物区分正常的人体和患病人体的能力越强。所以,要获知每个标志物与某种疾病的关联程度,就必须求出每个标志物的费舍尔比率。
请一并参阅图2,可通过如下的步骤根据第i个标志物的多个归一化后的采样样本计算第i个标志物的费舍尔比率。
121:根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,{Yj==0}表示当第i个标志物中第j个采样样本的类别为0时,{Yj==0}等于1,当第i个标志物中第j个采样样本的类别为1时,{Yj==0}等于0,Xi'j为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值。
122:根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差。
123:根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值,{Yj==1}表示当第i个标志物中第j个采样样本的类别为1时,{Yj==1}等于1,当第i个标志物中第j个采样样本的类别为0时,{Yj==1}等于0。
124:根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差。
125:根据计算第i个标志物的费舍尔比率。
130:判断是否已求出每个的标志物的费舍尔比率。如果没有求出每个标志物的费舍尔比率,返回步骤120;如果已经求出每个标志物的费舍尔比率,进入步骤140。
140:根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离。其中,a,b均为正整数,a,b均小于或等于M。
具体地,由于两个标志物之间的距离可以表示两个标志物之间的相关程度,所以,需要求出两个标志物之间的距离。在一具体的实施方式中,可以根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,X'a j为第a个标志物第j个归一化后的采样样本的值,Xb'j为第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
150:判断是否已求出任意两个标志物之间的距离。如果还没有求出任意两个标志物之间的距离,返回步骤140,如果已经求出任意两个标志物之间的距离,进入步骤160。
160:将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值。
具体地,多维标度算法是一个常用的算法,能够实现降维的效果。将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入时,将会输出每个标志物在降维后的维度的坐标。可以理解的是,由于人类对于2维和3维的图像更容易产生直观的感受,所以,通常可以将降维后的维度设置为2维或者3维,从而获得每个标志物在2维世界或者3维世界的坐标。
170:根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标,进而使得标志物相关性可视化。
具体地,可以根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小。由于每个标志物的费舍尔比率能够表示这个标志物对正常人体和患病人体的区分能力,所以,为了符合人们的认识规律,可以令每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例,即散点图上的点的大小越大,表示这个点所代表的标志物对正常人体和患病人体的区分能力越强。另外,每个标志物的坐标值是根据所有的两个标志物之间的距离算出来的,所以,散点图上的标志物的距离越近,则标志物的相关性越强。
通过实施本发明实施例,通过计算每个标志物的费舍尔比率从而获得每个标志物在散点图上的大小,又通过将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入进行降维,从而获得每个标志物的坐标值,进而获得每个标志物在散点图上的坐标,并根据每个标志物的大小和每个标志物的坐标构成散点图,从而实现了将所有标志物的相关性降维至可视化的低维度进行显示。
参阅图3,图3是本发明标志物相关性可视化方法的一实验结果的散点图。图中显示的是针对某种疾病进行采集数据后显示的散点图。其中,采集的人体的数量是50,标志物数量是2000,降维后的维度是二维。如图中所示,标志物的费舍尔比率越大,则该标志物在图中的点越大,标志物的相关性越强,则标志物的距离越近,从而实现了将所有标志物的相关性降维至可视化的低维度进行显示。根据图中标志物相关性可视化的结果,研究人员可以直观地确定可以选取图中圆圈范围内的较大的标志物作为该种疾病的对应的标志物,使用起来直观方便。
参阅图4,图4是本发明标志物相关性可视化方法的另一实验结果的散点图。图中显示的是针对另一种疾病进行采集数据后显示的散点图。其中,采集的人体的数量是45,标志物数量是4056,降维后的维度是二维。如图中所示,标志物的费舍尔比率越大,则该标志物在图中的点越大,标志物的相关性越强,则标志物的距离越近,从而实现了将所有标志物的相关性降维至可视化的低维度进行显示。根据图中标志物相关性可视化的结果,研究人员可以直观地确定可以选取图中圆圈范围内的较大的标志物作为该种疾病的对应的标志物,使用起来直观方便。
上述详细阐述了本发明实施例的方法,下面为了便于更好地实施本发明实施例的上述方案,相应地,下面还提供用于配合实施上述方案的相关设备。
参阅图5,图5是本发明标志物相关性可视化装置一实施方式的结构示意图。本实施方式的标志物相关性可视化装置包括:费舍尔比率模块320、距离模块330、坐标值模块340以及散点图模块350。
费舍尔比率模块320用于根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
距离模块330用于根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
坐标值模块340用于将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;
散点图模块350用于根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标,进而使得所述标志物相关性可视化。
可选地,所述装置还包括归一化模块310,所述归一化模块310用于根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本;所述费舍尔比率模块320用于根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
可选地,所述归一化模块310具体用于根据进行归一化计算,以得到多个归一化后的采样样本,其中,Xi为所述第i个标志物的多个采样样本所组成的向量,ui为所述第i个标志物的多个采样样本的平均值,ρi为所述第i个标志物的多个采样样本的标准差,Xi'为多个归一化后的采样样本所组成的向量。
可选地,所述距离模块330具体用于根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,X'a j为所述第a个标志物第j个归一化后的采样样本的值,Xb'j为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
可选地,所述降维后的维度为2维或者3维。
可选地,每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例。
本实施方式的标志物相关性可视化装置能够执行图1所示的标志物相关性可视化方法中的每一个步骤,具体请参阅图1以及相关描述,此处不再重复。
参阅图6,图6是本发明标志物相关性可视化装置中所述费舍尔比率模块一实施方式的结构示意图。本实施方式的费舍尔比率模块320包括:第一计算单元321、第二计算单元322、第三计算单元323、第四计算单元324以及第五计算单元325。
第一计算单元321用于根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,Xi'j为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值。
第二计算单元322用于根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差。
第三计算单元323用于根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值。
第四计算单元324用于根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差。
第五计算单元325用于根据计算第i个标志物的费舍尔比率。
本实施方式的费舍尔比率模块能够执行图2所示的方法中的每一个步骤,具体请参阅图2以及相关描述,此处不再重复。
通过实施本发明实施例,通过计算每个标志物的费舍尔比率从而获得每个标志物在散点图上的大小,又通过将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入进行降维,从而获得每个标志物的坐标值,进而获得每个标志物在散点图上的坐标,并根据每个标志物的大小和每个标志物的坐标构成散点图,从而实现了将所有标志物的相关性降维至可视化的低维度进行显示。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (14)

1.一种标志物相关性可视化方法,其特征在于,包括:
根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
重复上一个步骤,直到求出每个的标志物的费舍尔比率;
根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
重复上一个步骤,直到求出任意两个标志物之间的距离;
将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;
根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标,进而使得所述标志物相关性可视化。
2.根据权利要求1所述的方法,其特征在于,根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率之前包括:
根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本;
根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率具体为:
根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
3.根据权利要求2所述的方法,其特征在于,根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本具体为:
根据进行归一化计算,以得到多个归一化后的采样样本,其中,Xi为所述第i个标志物的多个采样样本所组成的向量,ui为所述第i个标志物的多个采样样本的平均值,ρi为所述第i个标志物的多个采样样本的标准差,Xi'为多个归一化后的采样样本所组成的向量。
4.根据权利要求3所述的方法,其特征在于,根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率具体为:
根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,Xi'j为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值;
根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差;
根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值;
根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差;
根据计算第i个标志物的费舍尔比率。
5.根据权利要求2所述的方法,其特征在于,根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离具体为:
根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,为所述第a个标志物第j个归一化后的采样样本的值,为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
6.根据权利要求1至6任一权利要求所述的方法,其特征在于,所述降维后的维度为2维或者3维。
7.根据权利要求1所述的方法,其特征在于,每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例。
8.一种标志物相关性可视化装置,其特征在于,包括:
费舍尔比率模块,用于根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
距离模块,用于根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
坐标值模块,用于将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;
散点图模块,用于根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标,进而使得所述标志物相关性可视化。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括归一化模块,
所述归一化模块用于根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本;
所述费舍尔比率模块用于根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
10.根据权利要求9所述的装置,其特征在于,
所述归一化模块具体用于根据进行归一化计算,以得到多个归一化后的采样样本,其中,Xi为所述第i个标志物的多个采样样本所组成的向量,ui为所述第i个标志物的多个采样样本的平均值,ρi为所述第i个标志物的多个采样样本的标准差,Xi'为多个归一化后的采样样本所组成的向量。
11.根据权利要求10所述的装置,其特征在于,所述费舍尔比率模块包括:
第一计算单元,用于根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值;
第二计算单元,用于根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差;
第三计算单元,用于根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值;
第四计算单元,用于根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差;
第五计算单元,用于根据计算第i个标志物的费舍尔比率。
12.根据权利要求9所述的装置,其特征在于,
所述距离模块具体用于根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,为所述第a个标志物第j个归一化后的采样样本的值,为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
13.根据权利要求8至12任一权利要求所述的装置,其特征在于,所述降维后的维度为2维或者3维。
14.根据权利要求8所述的装置,其特征在于,每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例。
CN201410853550.8A 2014-12-30 2014-12-30 一种生物标志物相关性可视化方法以及装置 Active CN104573411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410853550.8A CN104573411B (zh) 2014-12-30 2014-12-30 一种生物标志物相关性可视化方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410853550.8A CN104573411B (zh) 2014-12-30 2014-12-30 一种生物标志物相关性可视化方法以及装置

Publications (2)

Publication Number Publication Date
CN104573411A true CN104573411A (zh) 2015-04-29
CN104573411B CN104573411B (zh) 2018-04-17

Family

ID=53089457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410853550.8A Active CN104573411B (zh) 2014-12-30 2014-12-30 一种生物标志物相关性可视化方法以及装置

Country Status (1)

Country Link
CN (1) CN104573411B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615913A (zh) * 2014-12-31 2015-05-13 深圳先进技术研究院 一种标志物相关性检测方法以及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187977A (zh) * 2007-12-18 2008-05-28 北京中星微电子有限公司 一种人脸认证的方法和装置
US20080319711A1 (en) * 2005-12-02 2008-12-25 Yoshihiko Hamamoto Effective factor extraction system and its method and program
CN102697482A (zh) * 2011-03-14 2012-10-03 西门子公司 使用自适应判别学习和测量融合的导管跟踪的方法和系统
CN103218625A (zh) * 2013-05-10 2013-07-24 陆嘉恒 一种基于代价敏感支持向量机的遥感图像自动解译方法
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN104104621A (zh) * 2013-04-07 2014-10-15 中国科学院声学研究所 一种基于非线性降维的虚拟网络资源动态自适应调节方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319711A1 (en) * 2005-12-02 2008-12-25 Yoshihiko Hamamoto Effective factor extraction system and its method and program
CN101187977A (zh) * 2007-12-18 2008-05-28 北京中星微电子有限公司 一种人脸认证的方法和装置
CN102697482A (zh) * 2011-03-14 2012-10-03 西门子公司 使用自适应判别学习和测量融合的导管跟踪的方法和系统
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN104104621A (zh) * 2013-04-07 2014-10-15 中国科学院声学研究所 一种基于非线性降维的虚拟网络资源动态自适应调节方法
CN103218625A (zh) * 2013-05-10 2013-07-24 陆嘉恒 一种基于代价敏感支持向量机的遥感图像自动解译方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
单振宇: ""情感说话识别及其解决方法的研究"", 《中国博士学位论文全文数据库 信息科技辑》 *
李年赞: ""无线传感器网络中的多维标度定位算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615913A (zh) * 2014-12-31 2015-05-13 深圳先进技术研究院 一种标志物相关性检测方法以及装置

Also Published As

Publication number Publication date
CN104573411B (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
Chen et al. Cytofkit: a bioconductor package for an integrated mass cytometry data analysis pipeline
Viscosi et al. Leaf morphology, taxonomy and geometric morphometrics: a simplified protocol for beginners
Huson et al. Microbial community analysis using MEGAN
Gamble et al. Exploring uses of persistent homology for statistical analysis of landmark-based shape data
Wan et al. Polyp detection from colorectum images by using attentive YOLOv5
Sudarikov et al. Methods for the metagenomic data visualization and analysis
JP7194119B2 (ja) 大規模マルチパラメータデータセットの可視化、比較分析、及び自動差異検出
Koehl et al. Landmark-free geometric methods in biological shape analysis
WO2015081343A1 (en) Classification system for similar objects from digital images
Minas et al. Distance-based differential analysis of gene curves
Tao et al. Information visualization techniques in bioinformatics during the postgenomic era
Gonthier et al. An analysis of the transfer learning of convolutional neural networks for artistic images
Ding Visualization and integrative analysis of cancer multi-omics data
Nguyen et al. Interactive visualization for patient-to-patient comparison
Wang et al. Second-order multi-instance learning model for whole slide image classification
Lockwood et al. Topological features in cancer gene expression data
CN104573411A (zh) 一种标志物相关性可视化方法以及装置
Hu et al. Shape-driven coordinate ordering for star glyph sets via reinforcement learning
Li et al. Towards computational analytics of 3D neuron images using deep adversarial learning
Nahar et al. Microarray data classification using automatic SVM kernel selection
CN104615913A (zh) 一种标志物相关性检测方法以及装置
Liepe et al. Accurate reconstruction of cell and particle tracks from 3D live imaging data
Hamilton et al. Visualizing and clustering high throughput sub-cellular localization imaging
Xu et al. Unsupervised discovery of subspace trends
US20140278128A1 (en) Combining RNAi Imaging Data With Genomic Data For Gene Interaction Network Construction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant