CN105468933A - 生物学数据分析方法和系统 - Google Patents
生物学数据分析方法和系统 Download PDFInfo
- Publication number
- CN105468933A CN105468933A CN201410432465.4A CN201410432465A CN105468933A CN 105468933 A CN105468933 A CN 105468933A CN 201410432465 A CN201410432465 A CN 201410432465A CN 105468933 A CN105468933 A CN 105468933A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- background knowledge
- derived
- ontology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及计算机分析高维度生物学数据的技术领域,特别是涉及一种生物学数据分析方法和系统。本发明的方法包括:接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;根据原始数据的技术领域查找背景知识数据;依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;执行选择的特征筛选步骤,获得预筛选的结果。本发明为高维度生物学数据的分析提供一种新的兼顾统计、生物学意义的特征预筛选方案。
Description
技术领域
本发明涉及计算机分析高维度生物学数据的技术领域,特别是涉及一种生物学数据分析方法和系统。
背景技术
随着生物学高通量检测技术的飞速发展,目前可一次性同时检测几万个分子的表达值。但由于受到资金等情况的限制,往往在实验中出现样本数目远远小于被检测的分子数目的情况。以基因芯片为例,人类mRNA芯片可一次性检测3万左右的基因。如何从此类数据中合理的挖掘出具有生物学意义的分子是该领域的重要研究方向之一。常用的方式为利用机器学习领域中的特征选择方法对高维数据进行降维,去除其中的冗余及噪声数据,从而得到原始特征的子集为最终的特征集合。然而,由于生物学数据中往往原始特征数目过于庞大,导致运算时间过长,且通常将特征作为彼此无关的个体,这在一定程度上与生物分子彼此间存在关联的特点相冲突。所以,有必要改进现有技术中存在的无法根据背景知识数据的实际特点而分析实际实验生物学数据的问题。
发明内容
基于此,有必要针对现有技术中存在的无法根据背景知识数据的实际特点而分析实际实验生物学数据的问题,提供一种生物学数据分析方法和系统。
一种生物学数据分析方法,其包括:
接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;
根据原始数据的技术领域查找背景知识数据;
依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;
判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;
执行选择的特征筛选步骤,获得预筛选的结果。
在其中一个实施例中,所述特征筛选步骤从以下步骤中择一选择:利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集以获取预筛选结果的步骤,将所述矩阵形式中的特征映射到相应数据集中以获取预筛选结果的步骤,在利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集之后、再利用计算向量相关性的方法计算特征之间的表达相关性以获取预筛选结果的步骤,根据所述矩阵形式中的特征与数据集节点之间的拓扑性质计算节点拓扑度并进行排序以获取预筛选结果的步骤。
在其中一个实施例中,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤包括:
判断所述背景知识数据是否是文本类型,若是,则将所述背景知识数据构建为源自文本型的本体论知识库;若否,则判断所述背景知识数据的内部是否有结构关系,若否,则将所述背景知识数据构建为源自独立背景知识集合的n倍数据集,若是,则判定所述背景知识数据为非独立背景知识的数据集,所述n为背景知识集合中数目超过原始数据特征数的倍数。
在其中一个实施例中,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤还包括:
若所述背景知识数据的内部有结构关系,则继续判断所述内部结构关系是否有从属性,将所述非独立背景知识的数据集中内部有从属结构关系的背景知识数据构建为源自非文本型的本体论知识库。
在其中一个实施例中,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤还包括:
若背景知识数据的内部有结构关系,则继续判断所述内部结构关系是否有方向性,若是,则将所述背景知识数据中有方向性结构关系的数据构建为源自非独立背景知识集合的有向网,若否,则将所述背景知识数据中无方向性结构关系的数据构建为源自非独立背景知识集合的无向网。
在其中一个实施例中,所述源自文本型的本体论知识库对应的特征筛选步骤包括:利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第一阈值的节点,选择可富集于所述节点的特征,作为预筛选的结果;
所述源自独立背景知识集合的n倍数据集对应的特征筛选步骤包括:
当n小于或接近1时,将所述矩阵形式中的特征映射到此数据集中,获取预筛选的结果;当n远大于1时,利用统计学方法计算所述矩阵形式中特征是否在所述数据集中富集,选出所有不高于预设第二阈值的数据集,选择可富集于所述数据集的特征,作为预筛选的结果。
在其中一个实施例中,所述源自非文本型的本体论知识库对应的特征筛选步骤包括:
利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第三阈值的节点,选择可富集于所述节点的特征,再利用计算向量相关性的方法计算所选择出的特征之间的表达相关性,选出所有满足预设第四阈值的特征,作为预筛选的结果。
在其中一个实施例中,所述源自非独立背景知识集合的有向网或无向网对应的特征筛选步骤包括:将所述矩阵形式中特征与所述有向网或无向网中节点相对应,计算节点的拓扑性质,根据拓扑性质将其排序,设置第五阈值,选择排序靠前且不超过第五阈值的特征,作为预筛选的结果。
基于上述方法,本发明还提供了一种生物学数据分析系统,其包括:
输入模块,用于接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;
查找模块,用于根据原始数据的技术领域查找背景知识数据;
分类模块,用于依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;及
特征预筛选模块,用于判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤,并执行选择的特征筛选步骤,获得预筛选的结果。
在其中一个实施例中,所述分类模块包括:
文本类型判断单元,用于判断所述背景知识数据是否是文本类型;
源自文本型的本体论知识库构建单元,用于将文本类型的背景知识数据构建为源自文本型的本体论知识库;
内部结构关系判断单元,用于判断所述背景知识数据的内部是否有结构关系;
源自独立背景知识集合的n倍数据集构建单元,用于将内部没有结构关系的背景知识数据构建为源自独立背景知识集合的n倍数据集;
从属性判断单元,用于判断所述内部结构关系是否有从属性;
源自非文本型的本体论知识库构建单元,用于将所述非独立背景知识的数据集中内部有从属结构关系的背景知识数据构建为源自非文本型的本体论知识库;
方向性判断单元,用于判断所述内部结构关系是否有方向性;
源自非独立背景知识集合的有向网构建单元,用于将所述背景知识数据中有方向性结构关系的数据构建为源自非独立背景知识集合的有向网;及
源自非独立背景知识集合的无向网构建单元,用于将所述背景知识数据中无方向性结构关系的数据构建为源自非独立背景知识集合的无向网。
在其中一个实施例中,所述判断模块包括:
第一单元,用于针对源自文本型的本体论知识库,利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第一阈值的节点,选择可富集于所述节点的特征作为预筛选的结果的步骤;
第二单元,用于针对源自独立背景知识集合的n倍数据集,当n小于或接近1时,执行将所述矩阵形式中的特征映射到此数据集中,获取预筛选的结果的步骤;
第三单元,用于针对源自独立背景知识集合的n倍数据集,当n远大于1时,执行利用统计学方法计算所述矩阵形式中特征是否在所述数据集中富集,选出所有不高于预设第二阈值的数据集,选择可富集于所述数据集的特征,作为预筛选的结果的步骤;
第四单元,用于针对源自非文本型的本体论知识库,执行利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第三阈值的节点,选择可富集于所述节点的特征,再利用计算向量相关性的方法计算所选择出的特征与选择出的节点在所述本体论知识库下的表达相关性,选出所有不高于预设第四阈值的特征,作为预筛选的结果的步骤;以及
第五单元,用于针对源自非独立背景知识集合的有向网或无向网,将所述矩阵形式中特征与所述有向网或无向网中节点相对应,执行计算节点的拓扑性质,根据拓扑性质将其排序,设置第五阈值,选择排序靠前且不超过第五阈值的特征,作为预筛选的结果的步骤。
上述方法和系统,根据相应生物学数据的类型特点进行分类、依据分类结果针对不同类型的背景知识数据配置不同的特征预筛选方案,从而使得数据的分析和处理更加匹配背景知识,使得筛选的结果更加精确,与背景知识的关联性更大,更加有应用价值。本发明为高维度生物学数据的分析提供一种新的兼顾统计、生物学意义的特征预筛选方案,其克服之前发明、专利中仅从模式识别角度出发导致计算过程耗时而且结果不具备实际应用价值的不足,为各类生物学数据的计算机分析设计了新的应用性较强、省时间的技术流程方案。
附图说明
图1为本发明的生物学数据分析方法的流程示意图;
图2为对原始数据进行预处理的流程示意图;
图3为本发明的最优实施例的流程示意图;
图4为本发明的数据分析系统的结构示意图。
具体实施方式
本发明涉及一种针对高维度生物学数据,通过对相关背景知识进行分类以及配置对应不同的特征筛选方式,对特征进行预筛选的生物学数据分析方法,从而达到高效、快速、准确分析的目的。本发明提供的生物学数据分析方法主要是一种特征预筛选方法,其指的是在应用常规的机器学习领域的特征选择方法之前,采用特定的基于背景知识的方式预先筛选一部分特征,作为特征选择输入的方法。本发明的主要特色在于如何根据生物学背景知识的特点进行分类及配置相应的特征预筛选方案。同时,本发明基于背景知识的特征预筛选方法将在保证结果准确的同时极大的节省时间,本发明的方法可以用于对心脑血管类疾病等相关领域的生物学数据进行计算机分析处理。
如图1所示,本实施例提供的一种生物学数据分析方法,其包括:
步骤100,接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;这里的原始数据即采用高通量检测技术获得的实验数据。
步骤400,根据原始数据的技术领域查找背景知识数据;
步骤500,依据上述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集。在本步骤中,数据特点包括:数据类型和生物学数据结构关系,具体可根据选择如下四个判断步骤中的一个或多个的组合来来对背景知识数据进行分类构建不同类型的本体论知识库和/或数据集:判断数据类型是否是文本型、判断数据内部是否有生物学上的结构关系、判断所述结构关系是否具有生物学上的从属性、判断所述结构关系是否具有生物学上的方向性。
步骤600,判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;这里的特征筛选步骤从以下步骤中择一选择:利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集以获取预筛选结果的步骤,将所述矩阵形式中的特征映射到相应数据集中以获取预筛选结果的步骤,在利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集之后、再利用计算向量相关性的方法计算特征之间的表达相关性以获取预筛选结果的步骤,根据所述矩阵形式中的特征与数据集节点之间的拓扑性质计算节点拓扑度并进行排序以获取预筛选结果的步骤。
步骤700,执行选择的特征筛选步骤,获得预筛选的结果。在本步骤中,针对每一种类型的本体论知识库或数据集,分别执行相应的特征筛选步骤,会获得相应的预筛选的结果,汇总预筛选的结果可以作为最终的特征筛选结果用于特征选择。
在本实施例中,上述步骤400主要是根据待处理的原始数据的技术领域查找相关背景知识,依据背景知识对实验数据进行分析处理。比如,如果待处理的数据是心脑血管类疾病相关的原始高维生物学数据,则在步骤400中则可以根据心脑血管类疾病涉及到的分子特点,通过文献、下载其他类型数据等方式选择尽可能多的相关背景知识。主要的实现方式可以是连接外部服务器,设置下载接口,利用专业搜索器进行搜集下载。
如图1所示,在其中一个实施例中,上述方法还包括步骤800:针对预筛选的结果利用特征选择方法,将所述预筛选的结果作为输入,进行特征选择。这里指的特征选择法包括但不限于L1罗切斯特回归特征选择法。
如图1和图2所示,在其中一个实施例中,上述方法还包括:针对接收的原始数据,在原始数据在转化为矩阵形式后,还需要对原始数据进行预处理步骤200,即如图2所示包括:
步骤201:判断每一行特征对应的各个列值中是否存在表达缺失,
步骤202:针对列值缺失的节点,将缺失的列值赋值为零,或者计算每一行特征对应列的表达值的几何平均值或算数平均值,将缺失的列值赋值为所述几何平均值或算数平均值。
本实施例主要是针对每一个特征(即矩阵中的每一行),在某个样本中(即在某一列)的表达存在缺失的情况,则通过如上方法进行填充,用于保证计算的精确度。
如图1所示,针对预处理之后的数据,还可以对数据进行标准化处理,用以保证数据处理结构的可靠性,如步骤300。在本实施例中,数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。
在上述各个实施例的基础上,如图1和图3所示,本实施例在执行上述步骤500依据上述背景知识数据的数据特点进行分类构建不同类型的本体论知识库和/或数据集时,主要是依据数据类型、数据内部结构的关系等来实现分类的,具体见附图3的步骤501至509。同时,针对步骤500构建的不同数据类型的本体论知识库和/或数据集,步骤600会判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤,具体见附图3的步骤601至607。如图3所示,本实施例给出了一实现上述步骤500和步骤600的最优实施例。
输入背景知识数据后,执行以下步骤:
步骤501,判断所述背景知识数据是否是文本类型,若是,则执行步骤502:将所述背景知识数据构建为源自文本型的本体论知识库;若否,则执行步骤503。
步骤503,判断所述背景知识数据的内部是否有结构关系,若否,则执行步骤504:将所述背景知识数据构建为源自独立背景知识集合的n倍数据集,这里的n为背景知识集合中数目超过原始数据特征数的倍数;若是,则判定所述背景知识数据为非独立背景知识的数据集。
步骤601:针对步骤502构建的源自文本型的本体论知识库,对应的特征筛选步骤为步骤601:利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第一阈值(如0.05)的节点,选择可富集于所述节点的特征,作为预筛选的结果。本实施例中还包括:在执行完601步骤后,通过语义相似性计算节点间的一致性,将结果予以分类、整理,用以查看背景知识数据,便于给出生物学解释的提示。
针对步骤504构建的源自独立背景知识集合的n倍数据集,对应的特征筛选步骤包括:
步骤602,判断n值的大小;
当n小于或接近1时,执行步骤604:将所述矩阵形式中的特征映射到此数据集中,获取预筛选的结果;
当n远大于1时,执行步骤603:利用统计学方法计算所述矩阵形式中特征是否在所述数据集中富集,选出所有不高于预设第二阈值(如0.05)的数据集,选择可富集于所述数据集的特征,作为预筛选的结果。在这里进行n值判断时,若n与1相加,和的近似值与n相等,则n》1,即n远大于1;如果n比1大3个数量级以上,一般认为n》1。在判断接近1时,可以考虑设定误差值,判断如果n与1的差在误差范围内就判定为接近1。
如图3所示,针对非独立背景知识的数据集还可以继续执行以下判断步骤进行更加细致的分类,以便对背景知识数据更加细致划分、提高数据处理方法的精确度。
若上述背景知识数据的内部有结构关系,则执行步骤505。
步骤505,继续判断所述内部结构关系是否有从属性,若是,则执行步骤506:将所述非独立背景知识的数据集中内部有从属结构关系的背景知识数据构建为源自非文本型的本体论知识库;若否则执行步骤507。
步骤507,若上述背景知识数据的内部没有从属结构关系,则判断所述内部结构关系是否有方向性,若是,则执行步骤508:将所述背景知识数据中有方向性结构关系的数据构建为源自非独立背景知识集合的有向网,若否,则执行步骤509:将所述背景知识数据中无方向性结构关系的数据构建为源自非独立背景知识集合的无向网。
针对上述步骤506构建的源自非文本型的本体论知识库,对应的特征筛选步骤包括:
步骤605,利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第三阈值(如0.05)的节点,选择可富集于所述节点的特征;
步骤606,利用计算向量相关性的方法(比如皮尔森相关系数等)计算步骤605所选择出的特征之间的表达相关性,选出所有满足预设第四阈值(比如表达相关性的绝对值大于0)的特征,作为预筛选的结果。为了消除数据处理中的Ⅰ类错误和Ⅱ类错误,通常会在计算特征之间的表达相关性时加入统计学显著性检验(significancetest),然后选出所有满足统计学显著性检验和所有满足预设第四阈值的特征作为预筛选的结果。这里的统计学显著性检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异,常用的方法有t检验、t'检验、U检验、方差分析、X2检验、零反应检验等。
本实施例的最优实施例在计算表达相关性时,采用皮尔森相关系数来反映两个变量线性相关程度的统计量,相关系数用r表示。皮尔森相关系数r值通常伴有统计学检验,结果以p值表示,因此,此处设定的阈值应同时对p与r进行限定,比如第四阈值可以设定为:针对统计学显著性设定的0.05,表达相关性的绝对值大于0。计算相关系数r时,,同时计算r值的统计学显著性,用p表示。在p值显著的情况下(即不高于预设的阈值,如0.05),r描述的是两个变量间线性相关强弱的程度,r的绝对值越大表明相关性越强。
针对上述步骤508和509构建的源自非独立背景知识集合的有向网或无向网,对应的特征筛选步骤为步骤607:将所述矩阵形式中特征与所述有向网或无向网中节点相对应,计算节点的拓扑性质,根据拓扑性质将其排序,设置第五阈值(如度排名为网络中所有节点的前10%),选择排序靠前且不超过第五阈值(如度排名为网络中所有节点的前10%)的特征,作为预筛选的结果。具体的,针对源自非独立背景知识集合的有向网”,可以考虑将原始特征与有向网中的节点相对应,计算节点的度,比如节点的出度、入度等拓扑性质;而针对源自非独立背景知识集合的无向网,其计算过程与有向网的计算类似,但计算拓扑性质如节点的度时,无出度、入度之分。节点的度是指和该节点相关联的边的条数。对于有向网,节点的度为入度与出度的总和,其中,节点的入度为指向该节点的边的条数;节点的出度为从该节点出发,指向其他节点的边的条数。对于无向网,节点的度无入度、出度之分。
步骤701:基于不同类型的背景知识数据,结合所有预筛选的结果作为最终的特征预筛选结果;
步骤800:利用特征选择方法(如L1罗切斯特回归),将所述预筛选的结果作为输入,进行特征选择。
根据上述实施例可以依据背景知识数据的特点划分五类数据库或数据集,然后依据它们各自的数据特点再配以不同的特征预筛选步骤分别进行特征预筛选,从而获得基于不同类型的背景知识数据下的不同筛选结果,结合所有的特征预筛选结果作为最终的特征预筛选结果,用以特征选择。当然本发明旨在提供一种基于背景知识数据的特点将相关信息分类,并基于分类情况给予不同的特征预筛选方案的数据分析方法,附图3给出的一最优实施例,但本发明的保护不限于图3所示的流程关系,本发明也不限于只保护同时拥有上述五类数据分类的方法,比如可以在具体实施时只采用上述步骤501和503的判断组合及其对应的步骤600,或者只采用上述步骤501、503、505的判断组合及其对应的步骤600,或者采用如图3所示的上述步骤501、503、505、507的判断组合及其对应的步骤600,或者采用上述步骤501、503、507及其对应的步骤600,图3中所示的步骤505和步骤507可以交换前后顺序。
在上述各个步骤中,有关判断背景知识数据的内部是否有结构关系、内部结构关系是否有从属性、内部结构关系是否有方向性等的判断依据取自通用的分类标准。即将背景知识数据映射到广泛通用的相关分类标准中,较为常见的如基因本体论数据库(GeneOntology,常缩写为GO),此数据库包含3个子库,分别为:生物学过程、分子功能、细胞组分。比如通过背景知识获得的数据包括“代谢过程”、“生物学过程”、“催化活性过程”三个信息,则在生物学过程这个子数据库中可以查询到“代谢过程”为“生物学过程”的子节点,为IS-A的关系,而“催化活性过程”则为“代谢过程”的子节点,为PART-OF的关系。进而根据此关系构建本体论知识库。此外,可选取如由美国JohnsHopkins大学医学院VictorAMcKusiek教授主编的医学遗传学权威的百科全书《人类孟德尔遗传》;或在1987年创立的可免费浏览及下载的、联机形式的“在线人类孟德尔遗传数据库”(英文名称为OnlineMendelianInheritanceinMan,常缩写为OMIM)等作为判断背景知识内部结构关系的标准。可见,有关判断背景知识数据的内部是否有结构关系、内部结构关系是否有从属性、内部结构关系是否有方向性主要是判断其生物学意义上的结构关系,只要依据生物学知识即可判断。
上述步骤601、603、605中,有关利用统计学方法计算所述矩阵形式中特征是否在上述本体论知识库节点或数据集中富集,可以采用超几何检验模型计算P(X)的方式,例如,若采用超几何模型,则超几何分布中的参数是M、N、n,上述超几何分布记作X~H(n,M,N),其针对每个节点做富集分析的过程为:N为某个领域内的知识中包含在所构建的背景知识本体论知识库中所有节点中的总数目;n为待分析的原始数据中矩阵的行数即原始特征数目;M为待分析的节点自身包含的知识数目。
基于上述方法,本发明提供一种生物学数据分析系统,如图4所示,所述系统900包括:
输入模块901,用于接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;这里的原始数据即采用高通量检测技术获得的实验数据。
查找模块904,用于根据原始数据的技术领域查找背景知识数据;
分类模块905,用于依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;及
特征预筛选模块906,用于判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤,并执行选择的特征筛选步骤,获得预筛选的结果。
上述分类模块905中根据数据类型和数据结构关系对背景知识数据进行分类,具体可具体可根据选择如下四个判断步骤中的一个或多个的组合来来对背景知识数据进行分类构建不同类型的本体论知识库和/或数据集:判断数据类型是否是文本型、判断数据内部是否有结构关系、判断所述结构关系是否具有从属性、判断所述结构关系是否具有方向性。
上述特征预筛选模块906中特征筛选步骤从以下步骤中择一选择:利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集以获取预筛选结果的步骤,将所述矩阵形式中的特征映射到相应数据集中以获取预筛选结果的步骤,在利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集之后、再利用计算向量相关性的方法计算特征之间的表达相关性以获取预筛选结果的步骤,根据所述矩阵形式中的特征与数据集节点之间的拓扑性质计算节点拓扑度并进行排序以获取预筛选结果的步骤。
基于上述实施例,如图4所示,本实施例中生物学数据分析系统900还包括:特征选择模块907,用于利用L1罗切斯特回归特征选择方法,将所述预筛选的结果作为输入,进行特征选择。
基于上述实施例,如图4所示,本实施例中生物学数据分析系统900还包括:预处理模块902,用于判断每一行特征对应的各个列中是否存在表达缺失,针对列值缺失的节点,将缺失的列值赋值为零,或者计算每一行特征对应列的表达值的几何平均值或算数平均值,将缺失的列值赋值为所述几何平均值或算数平均值。
基于上述实施例,如图4所示,本实施例中生物学数据分析系统900还包括:标准化模块903,用于对所述预处理后的数据进行标准化处理。
基于上述实施例,如图4所示,本实施例中上述分类模块905包括:
文本类型判断单元915,用于判断所述背景知识数据是否是文本类型;
源自文本型的本体论知识库构建单元925,用于将文本类型的背景知识数据构建为源自文本型的本体论知识库;
内部结构关系判断单元935,用于判断所述背景知识数据的内部是否有结构关系;及
源自独立背景知识集合的n倍数据集构建单元945,用于将内部没有结构关系的背景知识数据构建为源独立背景知识集合的n倍数据集。
基于上述实施例,如图4所示,本实施例中上述分类模块905还包括:
从属性判断单元955,用于判断所述内部结构关系是否有从属性;及
源自非文本型的本体论知识库构建单元965,用于将所述非独立背景知识的数据集中内部有从属结构关系的背景知识数据构建为源自非文本型的本体论知识库。
基于上述实施例,如图4所示,本实施例中上述分类模块905还包括:
方向性判断单元975,用于判断所述内部结构关系是否有方向性;
源自非独立背景知识集合的有向网构建单元985,用于将所述背景知识数据中有方向性结构关系的数据构建为源自非独立背景知识集合的有向网;及
源自非独立背景知识集合的无向网构建单元995,用于将所述背景知识数据中无方向性结构关系的数据构建为源自非独立背景知识集合的无向网。
针对上述关于分类模块905的内部构造,上述特征预筛选模块906包括:
第一单元916,用于针对源自文本型的本体论知识库,利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第一阈值的节点,选择可富集于所述节点的特征作为预筛选的结果的步骤;
第二单元926,用于针对源自独立背景知识集合的n倍数据集,当n小于或接近1时,执行将所述矩阵形式中特征的特征映射到此数据集中,获取预筛选的结果的步骤;及
第三单元936,用于针对源自独立背景知识集合的n倍数据集,当n远大于1时,执行利用统计学方法计算所述矩阵形式中特征是否在所述数据集中富集,选出所有不高于预设第二阈值的数据集,选择可富集于所述数据集的特征,作为预筛选的结果的步骤。
基于上述实施例,如图4所示上述特征预筛选模块906还包括:
第四单元946,用于针对源自非文本型的本体论知识库,执行利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第三阈值的节点,选择可富集于所述节点的特征,再利用计算向量相关性的方法计算所选择出的特征之间的表达相关性,选出所有满足预设第四阈值的特征,作为预筛选的结果的步骤;
第五单元956,用于针对源自非独立背景知识集合的有向网或无向网,执行计算节点的拓扑性质,根据拓扑性质将其排序,设置第五阈值,选择排序靠前且不超过第五阈值的特征,作为预筛选的结果的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以下就一最优实施例,具体说明上述数据分析方法和分析系统的实现过程。
选取公开的数据为测试数据,对比图1、图2和图3系统流程图,进行分析。
步骤100,接收生物学数据作为原始数据,输入的原始数据,为18756行,126列的矩阵,即共有18756个特征,126个样本,其样本取自一类心脑血管类疾病—“肥厚性心肌病”患者与作为对照的健康人。
步骤200,对数据进行预处理:
对输入的原始数据进行初步的缺失值填充:针对每一个特征(即矩阵中的每一行),如果在某个样本中(即在某一列)的表达存在缺失的情况,则计算其余表达值算数平均值,将其替代缺失值。
步骤300,对缺失值填充后的数据进行标准化处理,行标准化与列标准化分别进行。数据标准化的方法有很多种,这里采用“最小—最大标准化”。
步骤400,根据原始数据的技术领域查找相关背景知识数据:选取常用的功能分析数据库的数据中与心肌病发病相关的集合709个,每个集合有若干个基因作为背景知识。
步骤500,依据背景知识数据的数据特点分类,构建不同类型的本体论知识库和/或数据集,具体执行步骤如下所示
(1)根据背景知识的数据类型,判断所获取的背景知识数据为文本型。
(2)背景知识间不具备从属关系及结构性,因此构建“源自文本型的本体论知识库”。
步骤600,原始数据特征的预筛选:针对“源自文本型的本体论知识库”,利用超几何检验,计算初始特征在709个节点中是否富集,预设阈值为0.05,选出所有不高于阈值0.05的节点,选择可富集于节点的原始特征10542个,作为预筛选的结果。
步骤700,获得10542个预筛选结果。
步骤800特征选择:采用L1罗切斯特回归作为特征选择方法,将预筛选后得到的特征作为输入,进行特征选择。原始数据运行需498.53秒,而经过上述特征预筛选后仅需305.058秒,其分类准确性从0.587上升到0.698,可见特征预筛选过程可以在提高分类准确性的同时降低运行时间。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种生物学数据分析方法,其特征在于,所述方法包括:
接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;
根据原始数据的技术领域查找背景知识数据;
依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;
判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤;
执行选择的特征筛选步骤,获得预筛选的结果。
2.根据权利要求1所述的生物学数据分析方法,其特征在于,所述特征筛选步骤从以下步骤中择一选择:利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集以获取预筛选结果的步骤,将所述矩阵形式中的特征映射到相应数据集中以获取预筛选结果的步骤,在利用统计学方法计算所述矩阵形式中特征是否在本体论知识库或数据集中富集之后、再利用计算向量相关性的方法计算特征之间的表达相关性以获取预筛选结果的步骤,根据所述矩阵形式中的特征与数据集节点之间的拓扑性质计算节点拓扑度并进行排序以获取预筛选结果的步骤。
3.根据权利要求1所述的生物学数据分析方法,其特征在于,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤包括:
判断所述背景知识数据是否是文本类型,若是,则将所述背景知识数据构建为源自文本型的本体论知识库;若否,则判断所述背景知识数据的内部是否有结构关系,若否,则将所述背景知识数据构建为源自独立背景知识集合的n倍数据集,若是,则判定所述背景知识数据为非独立背景知识的数据集,所述n为背景知识集合中数目超过原始数据特征数的倍数。
4.根据权利要求3所述的生物学数据分析方法,其特征在于,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤还包括:
若所述背景知识数据的内部有结构关系,则继续判断所述内部结构关系是否有从属性,将所述非独立背景知识的数据集中内部有从属结构关系的背景知识数据构建为源自非文本型的本体论知识库。
5.根据权利要求3所述的生物学数据分析方法,其特征在于,所述依据所述背景知识的数据特点进行分类用以构建不同类型的本体论知识库和/或数据集的步骤还包括:
若所述背景知识数据的内部有结构关系,则继续判断所述内部结构关系是否有方向性,若是,则将所述背景知识数据中有方向性结构关系的数据构建为源自非独立背景知识集合的有向网,若否,则将所述背景知识数据中无方向性结构关系的数据构建为源自非独立背景知识集合的无向网。
6.根据权利要求3所述的生物学数据分析方法,其特征在于,所述源自文本型的本体论知识库对应的特征筛选步骤包括:利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第一阈值的节点,选择可富集于所述节点的特征,作为预筛选的结果;
所述源自独立背景知识集合的n倍数据集对应的特征筛选步骤包括:
当n小于或接近1时,将所述矩阵形式中的特征映射到此数据集中,获取预筛选的结果;当n远大于1时,利用统计学方法计算所述矩阵形式中特征是否在所述数据集中富集,选出所有不高于预设第二阈值的数据集,选择可富集于所述数据集的特征,作为预筛选的结果。
7.根据权利要求4或5所述的生物学数据分析方法,其特征在于,所述源自非文本型的本体论知识库对应的特征筛选步骤包括:
利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第三阈值的节点,选择可富集于所述节点的特征,再利用计算向量相关性的方法计算所选择出的特征之间的表达相关性,选出所有满足预设第四阈值的特征,作为预筛选的结果;
所述源自非独立背景知识集合的有向网或无向网对应的特征筛选步骤包括:将所述矩阵形式中特征与所述有向网或无向网中节点相对应,计算节点的拓扑性质,根据拓扑性质将其排序,设置第五阈值,选择排序靠前且不超过第五阈值的特征,作为预筛选的结果。
8.一种生物学数据分析系统,其特征在于,所述系统包括:
输入模块,用于接收原始数据,并将原始数据转换为矩阵形式,行代表特征,列代表样本;
查找模块,用于根据原始数据的技术领域查找背景知识数据;
分类模块,用于依据所述背景知识数据的数据特点进行分类,构建不同类型的本体论知识库和/或数据集;
特征筛选模块,用于判断所述本体论知识库和/或数据集的所属类型,根据所述类型选择对应的特征筛选步骤,并执行选择的特征筛选步骤,获得预筛选的结果。
9.根据权利要求8所述的生物学数据分析系统,其特征在于,所述分类模块包括:
文本类型判断单元,用于判断所述背景知识数据是否是文本类型;
源自文本型的本体论知识库构建单元,用于将文本类型的背景知识数据构建为源自文本型的本体论知识库;
内部结构关系判断单元,用于判断所述背景知识数据的内部是否有结构关系;
源自独立背景知识集合的n倍数据集构建单元,用于将内部没有结构关系的背景知识数据构建为源自独立背景知识集合的n倍数据集;
从属性判断单元,用于判断所述内部结构关系是否有从属性;
源自非文本型的本体论知识库构建单元,用于将所述非独立背景知识的数据集中内部有从属结构关系的背景知识数据构建为源自非文本型的本体论知识库;
方向性判断单元,用于判断所述内部结构关系是否有方向性;
源自非独立背景知识集合的有向网构建单元,用于将所述背景知识数据中有方向性结构关系的数据构建为源自非独立背景知识集合的有向网;及
源自非独立背景知识集合的无向网构建单元,用于将所述背景知识数据中无方向性结构关系的数据构建为源自非独立背景知识集合的无向网。
10.根据权利要求9所述的生物学数据分析系统,其特征在于,所述判断模块包括:
第一单元,用于针对源自文本型的本体论知识库,利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第一阈值的节点,选择可富集于所述节点的特征作为预筛选的结果的步骤;
第二单元,用于针对源自独立背景知识集合的n倍数据集,当n小于或接近1时,执行将所述矩阵形式中特征的特征映射到此数据集中,获取预筛选的结果的步骤;及
第三单元,用于针对源自独立背景知识集合的n倍数据集,当n远大于1时,执行利用统计学方法计算所述矩阵形式中特征是否在所述数据集中富集,选出所有不高于预设第二阈值的数据集,选择可富集于所述数据集的特征,作为预筛选的结果的步骤;
第四单元,用于针对源自非文本型的本体论知识库,执行利用统计学方法计算所述矩阵形式中特征是否在所述本体论知识库节点中富集,选出所有不高于预设第三阈值的节点,选择可富集于所述节点的特征,再利用计算向量相关性的方法计算所选择出的特征之间的表达相关性,选出所有满足预设第四阈值的特征,作为预筛选的结果的步骤;以及
第五单元,用于针对源自非独立背景知识集合的有向网或无向网,将所述矩阵形式中特征与所述有向网或无向网中节点相对应,执行计算节点的拓扑性质,根据拓扑性质将其排序,设置第五阈值,选择排序靠前且不超过第五阈值的特征,作为预筛选的结果的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410432465.4A CN105468933B (zh) | 2014-08-28 | 2014-08-28 | 生物学数据分析方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410432465.4A CN105468933B (zh) | 2014-08-28 | 2014-08-28 | 生物学数据分析方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105468933A true CN105468933A (zh) | 2016-04-06 |
CN105468933B CN105468933B (zh) | 2018-06-15 |
Family
ID=55606623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410432465.4A Active CN105468933B (zh) | 2014-08-28 | 2014-08-28 | 生物学数据分析方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105468933B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066781A (zh) * | 2016-11-03 | 2017-08-18 | 西南大学 | 基于遗传和环境相关的结直肠癌数据模型的分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001020043A1 (en) * | 1999-09-17 | 2001-03-22 | Affymetrix, Inc. | Method of cluster analysis of gene expression profiles |
EP1410304A2 (en) * | 2001-03-26 | 2004-04-21 | Epigenomics AG | Method for epigenetic feature selection |
CN1645395A (zh) * | 2005-02-22 | 2005-07-27 | 中国科学院计算技术研究所 | 在电子邮件流中发现用户兴趣并据此有效推送文档的方法 |
CN1752966A (zh) * | 2004-09-24 | 2006-03-29 | 北京亿维讯科技有限公司 | 使用本体论和用户查询处理技术解决问题的方法 |
CN1871595A (zh) * | 2003-09-05 | 2006-11-29 | 新加坡科技研究局 | 处理生物数据的方法 |
CN101539906A (zh) * | 2008-03-17 | 2009-09-23 | 亿维讯软件(北京)有限公司 | 一种专利文本自动分析的系统及方法 |
CN101751455A (zh) * | 2009-12-31 | 2010-06-23 | 浙江大学 | 采用人工智能技术自动产生标题的方法 |
CN102016827A (zh) * | 2008-03-08 | 2011-04-13 | 东京毅力科创株式会社 | 自主的基于生物学的学习工具 |
-
2014
- 2014-08-28 CN CN201410432465.4A patent/CN105468933B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001020043A1 (en) * | 1999-09-17 | 2001-03-22 | Affymetrix, Inc. | Method of cluster analysis of gene expression profiles |
EP1410304A2 (en) * | 2001-03-26 | 2004-04-21 | Epigenomics AG | Method for epigenetic feature selection |
CN1871595A (zh) * | 2003-09-05 | 2006-11-29 | 新加坡科技研究局 | 处理生物数据的方法 |
CN1752966A (zh) * | 2004-09-24 | 2006-03-29 | 北京亿维讯科技有限公司 | 使用本体论和用户查询处理技术解决问题的方法 |
CN1645395A (zh) * | 2005-02-22 | 2005-07-27 | 中国科学院计算技术研究所 | 在电子邮件流中发现用户兴趣并据此有效推送文档的方法 |
CN102016827A (zh) * | 2008-03-08 | 2011-04-13 | 东京毅力科创株式会社 | 自主的基于生物学的学习工具 |
CN101539906A (zh) * | 2008-03-17 | 2009-09-23 | 亿维讯软件(北京)有限公司 | 一种专利文本自动分析的系统及方法 |
CN101751455A (zh) * | 2009-12-31 | 2010-06-23 | 浙江大学 | 采用人工智能技术自动产生标题的方法 |
Non-Patent Citations (1)
Title |
---|
赵肖肖等: "Logistic回归和T检验在基因特征提取中的应用", 《桂林电子科技大学学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066781A (zh) * | 2016-11-03 | 2017-08-18 | 西南大学 | 基于遗传和环境相关的结直肠癌数据模型的分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105468933B (zh) | 2018-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106611052B (zh) | 文本标签的确定方法及装置 | |
CN106547887B (zh) | 基于人工智能的搜索推荐方法和装置 | |
US11176462B1 (en) | System and method for prediction of protein-ligand interactions and their bioactivity | |
CN110781298A (zh) | 药品分类方法、装置、计算机设备及存储介质 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN107657062A (zh) | 相似病例检索方法及装置、存储介质、电子设备 | |
CN109192316B (zh) | 一种基于基因网络分析的疾病亚型预测系统 | |
CN111710364B (zh) | 一种菌群标记物的获取方法、装置、终端及存储介质 | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
CN113948157B (zh) | 化学反应分类方法、装置、电子设备及存储介质 | |
AU2020356582A1 (en) | Single cell RNA-seq data processing | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN115098556A (zh) | 用户需求匹配方法、装置、电子设备及存储介质 | |
Yang et al. | Decoding the link of microbiome niches with homologous sequences enables accurately targeted protein structure prediction | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN115098777A (zh) | 一种基于数据分析的用户个性化推荐方法和系统 | |
Zhu et al. | Predicting the results of RNA molecular specific hybridization using machine learning | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN105468933A (zh) | 生物学数据分析方法和系统 | |
CN113392929B (zh) | 一种基于词嵌入与自编码器融合的生物序列特征提取方法 | |
CN113672804B (zh) | 推荐信息生成方法、系统、计算机设备及存储介质 | |
Priscilla et al. | A semi-supervised hierarchical approach: Two-dimensional clustering of microarray gene expression data | |
CN115033700A (zh) | 基于相互学习网络的跨领域情感分析方法、装置以及设备 | |
CN115132324A (zh) | 心理健康预测方法和装置、电子设备、存储介质 | |
Shen et al. | Characterisation of semantic similarity on gene ontology based on a shortest path approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |