CN104615913B - 一种标志物相关性检测方法以及装置 - Google Patents

一种标志物相关性检测方法以及装置 Download PDF

Info

Publication number
CN104615913B
CN104615913B CN201410855625.6A CN201410855625A CN104615913B CN 104615913 B CN104615913 B CN 104615913B CN 201410855625 A CN201410855625 A CN 201410855625A CN 104615913 B CN104615913 B CN 104615913B
Authority
CN
China
Prior art keywords
mark
sample
classification
normalization
multiple samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410855625.6A
Other languages
English (en)
Other versions
CN104615913A (zh
Inventor
周丰丰
孟庆汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201410855625.6A priority Critical patent/CN104615913B/zh
Publication of CN104615913A publication Critical patent/CN104615913A/zh
Application granted granted Critical
Publication of CN104615913B publication Critical patent/CN104615913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种标志物相关性检测方法以及装置。所述方法包括:根据第i个标志物的多个采样样本计算第i个标志物的费舍尔比率;重复上一个步骤,直到求出每个的标志物的费舍尔比率;根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离;重复上一个步骤,直到求出任意两个标志物之间的距离;将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标。采用本发明,可将标志物的相关性降维至可视化的低维度进行显示。

Description

一种标志物相关性检测方法以及装置
技术领域
本发明涉及生物技术领域,尤其涉及一种标志物相关性检测方法以及装置。
背景技术
基因表达谱等生物数据往往具有几万甚至数十万个标志物,其中,标志物反应了生物的一方面化学、生物类物质的性质。对这些标志物进行相关性检测分析是很多研究的基础。在现有技术中,通常是在二维空间利用相似性矩阵来表达标志物之间的关系。其中,相似性矩阵的行坐标a和列坐标b都是标志物,而相似性矩阵中的第a行第b列的元素值,代表第a个标志物和第b个标志物之间的相似性。相似性的度量往往有很多种,比如相关系数,欧拉距离,余弦函数等。
在这种方式下,使用者每次只能观察两个标志物之间的相关性,例如,要观察第a个标志物和第b个标志物之间的相似性,可以通过观察相似性矩阵中的第a行第b列的元素值。但是,如果要求同时观察三个或者更多的标志物之间的相关性,则无法通过二维的相似矩阵进行观察,而必须在更高维的空间才能进行观察。例如,要观察三个标志物的相关性,则必须在三维空间进行观察;要观察四个标志物的相关性,则必须在三维空间进行观察,等等。所以,当生物数据包含几万甚至数十万个标志物,空间维数将复杂得超乎思维可以想象的程度。
发明内容
本发明实施例所要解决的技术问题在于,提供一种标志物相关性检测方法以及装置,实现了将所有标志物的相关性降维至可视化的低维度进行显示。
本发明第一方面提供了一种标志物相关性检测方法,包括:
根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
重复上一个步骤,直到求出每个的标志物的费舍尔比率;
根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
重复上一个步骤,直到求出任意两个标志物之间的距离;
将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;
根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标。
其中,根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率之前包括:
根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本;
根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率具体为:
根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
其中,根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本具体为:
根据进行归一化计算,以得到多个归一化后的采样样本,其中,Xi为所述第i个标志物的多个采样样本所组成的向量,ui为所述第i个标志物的多个采样样本的平均值,ρi为所述第i个标志物的多个采样样本的标准差,X′i为多个归一化后的采样样本所组成的向量。
其中,根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率具体为:
根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,X′i j为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值;
根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差;
根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值;
根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差;
根据计算第i个标志物的费舍尔比率。
其中,根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离具体为:
根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,X'a j为所述第a个标志物第j个归一化后的采样样本的值,X′b j为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
其中,所述降维后的维度为2维或者3维。
其中,每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例。
本发明第二方面提供了一种标志物相关性检测装置,包括:
费舍尔比率模块,用于根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
距离模块,用于根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
坐标值模块,用于将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;
散点图模块,用于根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标。
其中,所述装置还包括归一化模块,
所述归一化模块用于根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本;
所述费舍尔比率模块用于根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
其中,所述归一化模块具体用于根据进行归一化计算,以得到多个归一化后的采样样本,其中,Xi为所述第i个标志物的多个采样样本所组成的向量,ui为所述第i个标志物的多个采样样本的平均值,ρi为所述第i个标志物的多个采样样本的标准差,X′i为多个归一化后的采样样本所组成的向量。
其中,所述费舍尔比率模块包括:
第一计算单元,用于根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,X′i j为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值;
第二计算单元,用于根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差;
第三计算单元,用于根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值;
第四计算单元,用于根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差;
第五计算单元,用于根据计算第i个标志物的费舍尔比率。
其中,所述距离模块具体用于根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,X'a j为所述第a个标志物第j个归一化后的采样样本的值,X′b j为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
其中,所述降维后的维度为2维或者3维。
其中,每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例。
实施本发明实施例,通过计算每个标志物的费舍尔比率从而获得每个标志物在散点图上的大小,又通过将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入进行降维,从而获得每个标志物的坐标值,进而获得每个标志物在散点图上的坐标,并根据每个标志物的大小和每个标志物的坐标构成散点图,从而实现了将所有标志物的相关性降维至可视化的低维度进行显示。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明标志物相关性检测方法一实施方式的流程图;
图2是本发明标志物相关性检测方法中计算费舍尔比率的一实施方式的流程图;
图3是本发明标志物相关性检测方法的一实验结果的散点图;
图4是本发明标志物相关性检测方法的另一实验结果的散点图;
图5是本发明标志物相关性检测装置一实施方式的结构示意图;
图6是本发明标志物相关性检测装置中费舍尔比率模块一实施方式的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
参见图1,图1是本发明标志物相关性检测方法一实施方式的流程图。该方法包括:
110:根据第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本。
具体地,通过生物技术可以知道,某些疾病是通常可以通过人体的基因表达谱等生物数据上的标志物反映出来的。但是,具体的某种疾病和标志物之间的关系是需要通过研究分析才能获得的。为了识别疾病与标志物之间的关系,可以对N个人体进行数据采集。其中,采集的人体中,既有正常的人体,也有患病的人体,而且正常的人体记作类别为0,患病的人体记作类别为1。由于不知道某种疾病和标志物之间的具体关系,所以,在进行数据采集时,必须对与该种疾病可能相关的M个标志物都进行采集。例如,为了研究某种结肠的疾病,则必须对与结肠相关的所有标志物都进行采集。
可以理解的是,进行数据采集时,采集的人体数量N,和每个人体所采集的标志物的数量M都可以根据实际的研究需要而设置,本发明不作具体限定。
采集完数据后,每个标志物都有对应有N个采样样本,但是,这些采样样本所用的度量单位可能是不一样的,所以,必须进行归一化处理,以得到N个归一化后的采样样本。在一具体的实施方式中,可以通过根据进行归一化计算,以得到第i个标志物的多个归一化后的采样样本。其中,i为正整数,i小于或等于M,M为标志物的数量,Xi为第i个标志物的多个采样样本所组成的向量,ui为第i个标志物的多个采样样本的平均值,ρi为第i个标志物的多个采样样本的标准差,X′i为多个归一化后的采样样本所组成的向量。对所有的标志物都进行归一化处理。
120:根据第i个标志物的多个归一化后的采样样本计算第i个标志物的费舍尔比率。
具体地,每个标志物的费舍尔比率能够反应该标志物对不同类人体(正常的人体和患病人体,即标记为0的人体和标记为1的人体)的区分能力。标志物的费舍尔比率越大,则表示这个标志物区分正常的人体和患病人体的能力越强。所以,要获知每个标志物与某种疾病的关联程度,就必须求出每个标志物的费舍尔比率。
请一并参阅图2,可通过如下的步骤根据第i个标志物的多个归一化后的采样样本计算第i个标志物的费舍尔比率。
121:根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,{Yj==0}表示当第i个标志物中第j个采样样本的类别为0时,{Yj==0}等于1,当第i个标志物中第j个采样样本的类别为1时,{Yj==0}等于0,X′i j为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值。
122:根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差。
123:根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值,{Yj==1}表示当第i个标志物中第j个采样样本的类别为1时,{Yj==1}等于1,当第i个标志物中第j个采样样本的类别为0时,{Yj==1}等于0。
124:根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差。
125:根据计算第i个标志物的费舍尔比率。
130:判断是否已求出每个的标志物的费舍尔比率。如果没有求出每个标志物的费舍尔比率,返回步骤120;如果已经求出每个标志物的费舍尔比率,进入步骤140。
140:根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离。其中,a,b均为正整数,a,b均小于或等于M。
具体地,由于两个标志物之间的距离可以表示两个标志物之间的相关程度,所以,需要求出两个标志物之间的距离。在一具体的实施方式中,可以根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,X'a j为第a个标志物第j个归一化后的采样样本的值,X′b j为第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
150:判断是否已求出任意两个标志物之间的距离。如果还没有求出任意两个标志物之间的距离,返回步骤140,如果已经求出任意两个标志物之间的距离,进入步骤160。
160:将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值。
具体地,多维标度算法是一个常用的算法,能够实现降维的效果。将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入时,将会输出每个标志物在降维后的维度的坐标。可以理解的是,由于人类对于2维和3维的图像更容易产生直观的感受,所以,通常可以将降维后的维度设置为2维或者3维,从而获得每个标志物在2维世界或者3维世界的坐标。
170:根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标。
具体地,可以根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小。由于每个标志物的费舍尔比率能够表示这个标志物对正常人体和患病人体的区分能力,所以,为了符合人们的认识规律,可以令每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例,即散点图上的点的大小越大,表示这个点所代表的标志物对正常人体和患病人体的区分能力越强。另外,每个标志物的坐标值是根据所有的两个标志物之间的距离算出来的,所以,散点图上的标志物的距离越近,则标志物的相关性越强。
实施本发明实施例,通过计算每个标志物的费舍尔比率从而获得每个标志物在散点图上的大小,又通过将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入进行降维,从而获得每个标志物的坐标值,进而获得每个标志物在散点图上的坐标,并根据每个标志物的大小和每个标志物的坐标构成散点图,从而实现了将所有标志物的相关性降维至可视化的低维度进行显示。
参阅图3,图3是本发明标志物相关性检测方法的一实验结果的散点图。图中显示的是针对某种疾病进行采集数据后显示的散点图。其中,采集的人体的数量是50,标志物数量是2000,降维后的维度是二维。如图中所示,标志物的费舍尔比率越大,则该标志物在图中的点越大,标志物的相关性越强,则标志物的距离越近,从而实现了将所有标志物的相关性降维至可视化的低维度进行显示。根据图中标志物相关性可视化的结果,研究人员可以直观地确定可以选取图中圆圈范围内的较大的标志物作为该种疾病的对应的标志物,使用起来直观方便。
参阅图4,图4是本发明标志物相关性检测方法的另一实验结果的散点图。图中显示的是针对另一种疾病进行采集数据后显示的散点图。其中,采集的人体的数量是45,标志物数量是4056,降维后的维度是二维。如图中所示,标志物的费舍尔比率越大,则该标志物在图中的点越大,标志物的相关性越强,则标志物的距离越近,从而实现了将所有标志物的相关性降维至可视化的低维度进行显示。根据图中标志物相关性可视化的结果,研究人员可以直观地确定可以选取图中圆圈范围内的较大的标志物作为该种疾病的对应的标志物,使用起来直观方便。
上述详细阐述了本发明实施例的方法,下面为了便于更好地实施本发明实施例的上述方案,相应地,下面还提供用于配合实施上述方案的相关设备。
参阅图5,图5是本发明标志物相关性检测装置一实施方式的结构示意图。本实施方式的标志物相关性检测装置300包括:费舍尔比率模块320、距离模块330、坐标值模块340以及散点图模块350。
费舍尔比率模块320用于根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
距离模块330用于根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
坐标值模块340用于将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;
散点图模块350用于根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标。
可选地,所述装置还包括归一化模块310,所述归一化模块310用于根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本;所述费舍尔比率模块320用于根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
可选地,所述归一化模块310具体用于根据进行归一化计算,以得到多个归一化后的采样样本,其中,Xi为所述第i个标志物的多个采样样本所组成的向量,ui为所述第i个标志物的多个采样样本的平均值,ρi为所述第i个标志物的多个采样样本的标准差,X′i为多个归一化后的采样样本所组成的向量。
可选地,所述距离模块330具体用于根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,X'a j为所述第a个标志物第j个归一化后的采样样本的值,X′b j为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
可选地,所述降维后的维度为2维或者3维。
可选地,每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例。
本实施方式的标志物相关性检测装置能够执行图1所示的标志物相关性检测方法中的每一个步骤,具体请参阅图1以及相关描述,此处不再重复。
参阅图6,图6是本发明标志物相关性检测装置中所述费舍尔比率模块一实施方式的结构示意图。本实施方式的费舍尔比率模块320包括:第一计算单元321、第二计算单元322、第三计算单元323、第四计算单元324以及第五计算单元325。
第一计算单元321用于根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,X′i j为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值。
第二计算单元322用于根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差。
第三计算单元323用于根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值。
第四计算单元324用于根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差。
第五计算单元325用于根据计算第i个标志物的费舍尔比率。
本实施方式的费舍尔比率模块能够执行图2所示的方法中的每一个步骤,具体请参阅图2以及相关描述,此处不再重复。
实施本发明实施例,通过计算每个标志物的费舍尔比率从而获得每个标志物在散点图上的大小,又通过将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入进行降维,从而获得每个标志物的坐标值,进而获得每个标志物在散点图上的坐标,并根据每个标志物的大小和每个标志物的坐标构成散点图,从而实现了将所有标志物的相关性降维至可视化的低维度进行显示。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (12)

1.一种标志物相关性检测方法,其特征在于,包括:
根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
重复上一个步骤,直到求出每个标志物的费舍尔比率;
根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
重复上一个步骤,直到求出任意两个标志物之间的距离;
将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;
根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标;
所述根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离具体为:
根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,为所述第a个标志物第j个归一化后的采样样本的值,为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
2.根据权利要求1所述的方法,其特征在于,根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率之前包括:
根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本;
根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率具体为:
根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
3.根据权利要求2所述的方法,其特征在于,根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本具体为:
根据进行归一化计算,以得到多个归一化后的采样样本,其中,Xi为所述第i个标志物的多个采样样本所组成的向量,ui为所述第i个标志物的多个采样样本的平均值,ρi为所述第i个标志物的多个采样样本的标准差,Xi'为多个归一化后的采样样本所组成的向量。
4.根据权利要求3所述的方法,其特征在于,根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率具体为:
根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值;
根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差;
根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值;
根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差;
根据计算第i个标志物的费舍尔比率。
5.根据权利要求1至4任一权利要求所述的方法,其特征在于,所述降维后的维度为2维或者3维。
6.根据权利要求1所述的方法,其特征在于,每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例。
7.一种标志物相关性检测装置,其特征在于,包括:
费舍尔比率模块,用于根据第i个标志物的多个采样样本计算所述第i个标志物的费舍尔比率,其中,i为正整数,i小于或等于M,M为所述标志物的数量,N为所述采样样本的数量;
距离模块,用于根据第a个标志物的多个采样样本和第b个标志物的多个采样样本计算出第a个标志物和第b个标志物之间的距离,其中,a,b均为正整数,a,b均小于或等于M;
坐标值模块,用于将所有的两个标志物之间的距离和降维后的维度作为多维标度算法的输入,从而获得每个标志物的坐标值;
散点图模块,用于根据每个标志物的费舍尔比率获得每个标志物在散点图上的大小,并根据每个标志物的坐标值获得每个标志物在散点图上的坐标;
所述距离模块具体用于根据计算出第a个标志物和第b个标志物之间的距离,其中,j为采样样本的序号,为所述第a个标志物第j个归一化后的采样样本的值,为所述第b个标志物第j个归一化后的采样样本的值,Dab为第a个标志物和第b个标志物之间的距离。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括归一化模块,
所述归一化模块用于根据所述第i个标志物的多个采样样本进行归一化计算,以得到多个归一化后的采样样本;
所述费舍尔比率模块用于根据第i个标志物的多个归一化后的采样样本计算所述第i个标志物的费舍尔比率。
9.根据权利要求8所述的装置,其特征在于,
所述归一化模块具体用于根据进行归一化计算,以得到多个归一化后的采样样本,其中,Xi为所述第i个标志物的多个采样样本所组成的向量,ui为所述第i个标志物的多个采样样本的平均值,ρi为所述第i个标志物的多个采样样本的标准差,Xi'为多个归一化后的采样样本所组成的向量。
10.根据权利要求9所述的装置,其特征在于,所述费舍尔比率模块包括:
第一计算单元,用于根据求出第i个标志物中类别为0的采样样本的平均值,其中,j为第i个标志物中采样样本的序号,Yj为第i个标志物中第j个采样样本的类别,当Yj=0时,第j个采样样本的类别为0,当Yj=1时,第j个采样样本的类别为1,为第i个标志物的第j个归一化后的采样样本的值,m0为第i个标志物中类别为0的采样样本的平均值;
第二计算单元,用于根据求出第i个标志物中类别为0的采样样本的标准差,其中,v0为第i个标志物中类别为0的采样样本的标准差;
第三计算单元,用于根据求出第i个标志物中类别为1的采样样本的平均值,其中,m1为第i个标志物中类别为1的采样样本的平均值;
第四计算单元,用于根据求出第i个标志物中类别为1的采样样本的标准差,其中,v1为第i个标志物中类别为1的采样样本的标准差;
第五计算单元,用于根据计算第i个标志物的费舍尔比率。
11.根据权利要求7至10任一权利要求所述的装置,其特征在于,所述降维后的维度为2维或者3维。
12.根据权利要求7所述的装置,其特征在于,每个标志物的费舍尔比率与每个标志物在散点图上的大小成正比例。
CN201410855625.6A 2014-12-31 2014-12-31 一种标志物相关性检测方法以及装置 Active CN104615913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410855625.6A CN104615913B (zh) 2014-12-31 2014-12-31 一种标志物相关性检测方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410855625.6A CN104615913B (zh) 2014-12-31 2014-12-31 一种标志物相关性检测方法以及装置

Publications (2)

Publication Number Publication Date
CN104615913A CN104615913A (zh) 2015-05-13
CN104615913B true CN104615913B (zh) 2017-11-07

Family

ID=53150354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410855625.6A Active CN104615913B (zh) 2014-12-31 2014-12-31 一种标志物相关性检测方法以及装置

Country Status (1)

Country Link
CN (1) CN104615913B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002240284A1 (en) * 2001-02-09 2002-08-28 American Museum Of National History Method and system for recognizing one or more characteristic attributes of one or more groups of information items
JP2005267282A (ja) * 2004-03-18 2005-09-29 Kitakyushu Foundation For The Advancement Of Industry Science & Technology 研究遺伝子産物関連度予測システム
CA2716498C (en) * 2008-02-28 2020-12-22 University Of Virginia Patent Foundation Serotonin transporter gene and treatment of alcoholism
US20140127672A1 (en) * 2011-03-21 2014-05-08 The Regents Of The University Of California Disease detection in plants
CN103150491B (zh) * 2013-04-03 2016-03-16 河海大学 基于核苷酸位差的频谱3-周期性信噪比获取方法
CN104200134A (zh) * 2014-08-30 2014-12-10 北京工业大学 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN104573411B (zh) * 2014-12-30 2018-04-17 深圳先进技术研究院 一种生物标志物相关性可视化方法以及装置

Also Published As

Publication number Publication date
CN104615913A (zh) 2015-05-13

Similar Documents

Publication Publication Date Title
Small Visualizing science by citation mapping
Wall et al. Singular value decomposition and principal component analysis
Tuset et al. Sagittal otolith shape used in the identification of fishes of the genus Serranus
Gonzalez et al. Advancing analytical algorithms and pipelines for billions of microbial sequences
Sudarikov et al. Methods for the metagenomic data visualization and analysis
Bhaskar et al. Analyzing collective motion with machine learning and topology
Tanaseichuk et al. Phylogeny-based classification of microbial communities
Lepš et al. Biostatistics with R: an introductory guide for field biologists
Padao et al. Using Naïve Bayesian method for plant leaf classification based on shape and texture features
Rasmussen et al. The challenge of data annotation in deep learning—a case study on whole plant corn silage
Séguin et al. Effect of disturbance regime on alpha and beta diversity of rock pools
Turechek et al. Considerations of scale in the analysis of spatial pattern of plant disease epidemics
Egusquiza et al. Analysis of few-shot techniques for fungal plant disease classification and evaluation of clustering capabilities over real datasets
Pan et al. Identification and counting of sugarcane seedlings in the field using improved faster R-CNN
Kara et al. Detection and classification of knee injuries from MR images using the MRNet dataset with progressively operating deep learning methods
Yang et al. Clustering on human microbiome sequencing data: A distance-based unsupervised learning model
Islam et al. HortNet417v1—A deep-learning architecture for the automatic detection of pot-cultivated peach plant water stress
Zhang et al. Hot anchors: A heuristic anchors sampling method in RCNN-based object detection
Hu et al. Crop node detection and internode length estimation using an improved YOLOv5 model
CN104573411B (zh) 一种生物标志物相关性可视化方法以及装置
CN104615913B (zh) 一种标志物相关性检测方法以及装置
Dagliati et al. Inferring temporal phenotypes with topological data analysis and pseudo time-series
Smith et al. Scalable microbial strain inference in metagenomic data using StrainFacts
Vehmas et al. Airborne laser scanning for the site type identification of mature boreal forest stands
Das Choudhury et al. Flowerphenonet: Automated flower detection from multi-view image sequences using deep neural networks for temporal plant phenotyping analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant