CN105718999A - 一种启发式代谢共表达网络的构建方法及系统 - Google Patents
一种启发式代谢共表达网络的构建方法及系统 Download PDFInfo
- Publication number
- CN105718999A CN105718999A CN201610050607.XA CN201610050607A CN105718999A CN 105718999 A CN105718999 A CN 105718999A CN 201610050607 A CN201610050607 A CN 201610050607A CN 105718999 A CN105718999 A CN 105718999A
- Authority
- CN
- China
- Prior art keywords
- fitness function
- coexpression
- function value
- optimizing
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/002—Biomolecular computers, i.e. using biomolecules, proteins, cells
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开一种启发式代谢共表达网络的构建方法及系统。本发明根据最大依赖准则将多个代谢物特征的互信息作为适应度函数值,并使用启发式计算智能多模优化算法对最优特征子集进行寻优搜索。通过多次运行这一优化过程,将各次结果进行组合学习,构造共表达网络结构。最后,通过概率模型计算切分阈值,获得准确、稳定的代谢共表达网络。
Description
技术领域
本发明涉及代谢组学网络领域,尤其涉及一种启发式代谢共表达网络的构建方法及系统。
背景技术
代谢物是生物体内完成代谢过程的小分子有机化合物总称,包含了丰富的生理状态信息。代谢组学基于对代谢物的整体系统性研究,可有效揭示生理现象背后的真实机理,并更为全面地展示生命体的动态状态。因此获得了越来越多的重视,被广泛应用于诸多科研与实用领域中。而另一方面,传统机器学习方法往往难以应对代谢组学特征高维度、小样本、高噪声的数据特点。使用创新的网络结构描述代谢物间的相互关联,并以此进行准确、稳定的分析,是代谢组学未来发展的重要方向。
已有的代谢组学网络描述方法主要包括两类:
其一是全基因代谢网络重构方法。其以基因表达信息为基础,通过获取其可能产生的蛋白质列表,搜索EC(EnzymeCommissionNumber)数据库得到对应的蛋白酶,并根据代谢途径(Pathway)数据库取得所有可能的化学反应,使用连接算法组合为包含高假阳性的代谢网络草图。而后根据在特定条件下的实验表达信息,对草图进行修正与剪裁,最终获得较为准确的网络结构。
其二是代谢网络的共表达构建方法(MetabolicCo-expressionNetwork)。直接评估不同代谢物特征在各实验条件下的表达差异,通过计算相关性参数(CorrelationCoefficient)形成权值矩阵。而后人为设定或使用适应性算法确定切分阈值,对矩阵进行简化,最终映射为网络结构。
一般认为,代谢共表达网络可更为有效地描述未知的生理关联信息,且对先验知识要求较低,更适合于非针对性代谢组学研究,是发掘与分析代谢组学新知识的有力工具。但在生物数据中,其相关性参数的计算往往有着较大误差,且人为设定的切分阈值缺乏理论依据,导致最终结果难以令人满意。针对这一问题,近年来提出了基于特征选择的共表达网络构建方法,获得了学术界的广泛重视。
现有的全基因代谢网络重构方法,其缺点在于:
第一,其包含了现有数据库中所有可能的代谢反应,具有极高的假阳性。尽管实验数据可部分消除此类网络连接,但若要对其进行准确修正,所需的样本量过高,成本较高。
第二,其严重依赖于现有的基因表达、酶催化及代谢途径等先验知识。而此类知识,特别是代谢组学相关的数据库仍有着大量信息缺失。导致所构建的网络具有高假阴性。此外,其网络完全基于现有知识,难以用于新生物信息的发掘。
现有的代谢共表达网络构建方法,其缺点在于:
第一,基于相关性参数的方法,如Pearson相关系数、Spearman相关系数等,其参数计算所需样本量较高,在生物实验中往往难以满足。导致所估计的相关程度有所偏差,构造网络的鲁棒性不佳。且人为设定切分阈值并无理论支撑,容易再次引入误差,影响分析结果。
第二,现有算法仅能估计两两特征(PairwiseFeatures)间的关联信息。而在真实生命体中,多个代谢物往往会相互连接形成功能模块,整体对生理过程进行调控。现有方法并不能有效描述这一特点。
第三,现有基于特征选择的网络构建方法一般使用确定性搜索方法,对于相同数据集仅能获得唯一的特征子集。而对于高维代谢组学数据,此类解往往不是最优的。此类方法也无法通过多次运行程序搜索更佳的结果。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种启发式代谢共表达网络的构建方法及系统,旨在解决现有的构建方法准确性低、稳定性差、成本高等问题。
本发明的技术方案如下:
一种启发式代谢共表达网络的构建方法,其中,包括步骤:
A、对原始的代谢特征数据集F*进行正规化预处理,使其中所有M个代谢特征矢量在每个维度上都具有0均值及单位方差:
F={Fm;m=1,2,…,M}为预处理后的代谢特征数据集,μm、δm分别为第m个原始的代谢特征矢量F* m的均值与方差;
B、设定特征选择总运行次数为K,初始化运行计数器k=1;
C、构造多模优化的进化种群ps,将其所包含的每个寻优个体Xi∈ps初始化为范围R=[0,1]内均匀分布的M维随机矢量;
D、设定算法迭代总次数为G,初始化迭代计数器g=1;
E、计算进化种群ps中每个寻优个体的共享适应度函数值;
F、在计算所有寻优个体的共享适应度函数值后,使用启发式计算智能算法优化进化种群ps;
G、更新迭代计数器g=g+1,若g<G,则返回步骤E;否则本次优化结束,进入步骤H;
H、对于优化后进化种群ps中的每个寻优个体Xi,将其映射为选择矢量Si;
I、构造对称的共表达权值矩阵Wk={wp,q}M×M,其中对角线元素wp,p为所有Si中代谢特征矢量Fp被选中的次数,p∈M:
其余元素wp,q则为Si中代谢特征矢量Fp与Fq被同时选中的次数,p,q∈M,p≠q:
wp,q=∑i∈|ps|sp∩sq;sp,sq∈Si;
J、更新运行计数器k=k+1,若k<K,则返回步骤C,否则特征选择完成,进入步骤K;
K、对每次运行所获得的共表达权值矩阵进行平均,并计算其对应的概率,得到最终的共表达权值矩阵为Ω={ωp,q}M×M,其中|ps|为进化种群ps中的寻优个体总数:
L、将每次特征选择中最终输出的每个Si视作优化算法对于代谢特征数据集空间的一次采样,其sm∈Si服从概率pm的伯努利分布,则wp,p即为服从B(|ps|,pm)二次分布的随机变量;
M、将最终的共表达权值矩阵视作组合学习投票方法的稳态结果;
N、使用最终的共表达权值矩阵中的对角线元素ωp,p作为节点p的重要性权重,其余任意ωp,q,p≠q作为节点Fp与Fq之间的连接权重,构建全连通加权网络G,而后移除其中权重小于阈值ωt的节点与边,形成该原始的代谢特征数据集F*的代谢共表达网络;
O、输出所述代谢共表达网络作为结果。
所述的启发式代谢共表达网络的构建方法,其中,所述步骤E具体包括:
E1、设若输入个体为Xi={xm;m=1,2,...,M},其各维度上均为R范围内的实数值,将其二值化为离散的选择矢量Si={sm;m=1,2,...,M}:
E2、对于Si中任意第m个选择值sm,若其值为1,则选择对应代谢特征矢量Fm包含于所构造的特征子集FS中,否则Fm将不会被选中;
FS={Fm;m=1,2,…,M,sm=1};
E3、计算FS中多变量的近似互信息值作为原始适应度函数值;
E4、定义稀疏适应度函数值为矢量Xi的1范数:
fspr.(Xi)=‖Xi‖1;
E5、计算当前个体Xi的总体适应度函数值为:
f(Xi)=fraw(Xi)+λfspr.(Xi);
其中λ为拉格朗日乘数;
E6、若每个寻优个体的总体适应度函数值都已计算,则转至步骤E7,否则转至步骤E1;
E7、计算各寻优个体的共享适应度函数值:
其中r为聚集半径,∈为驱散因子。
所述的启发式代谢共表达网络的构建方法,其中,所述步骤E3具体包括:
E31、设若C为F的N个样本所对应的类标矢量,则FS的互信息计算为:
I(FS;C)=H(FS)-H(Fs|C)=H(FS)-∑c∈Cp(c)H(Fs|c);
其中p(c)表示类标c的出现概率,H()表示变量的熵;
E32、使用FS中的N个样本作为节点,其相互欧氏距离作为边的权值,构造最小生成树,则Lγ(FS)为此最小生成树的边权值总和:
其中γ为接近于0的正值常数;
E33、计算FS的多变量互信息为:
Iappx.(FS;C)=Lγ(FS)-∑c∈Cp(c)Lγ(FS|c);
从而原始适应度函数值定义为:
fraw(Xi)=-Iappx.(FS;C)。
一种启发式代谢共表达网络的构建系统,其中,包括:
正规化模块,用于对原始的代谢特征数据集F*进行正规化预处理,使其中所有M个代谢特征矢量在每个维度上都具有0均值及单位方差:
F={Fm;m=1,2,…,M}为预处理后的代谢特征数据集,μm、δm分别为第m个原始的代谢特征矢量F* m的均值与方差;
运行计数器初始化模块,用于设定特征选择总运行次数为K,初始化运行计数器k=1;
进化种群构造模块,用于构造多模优化的进化种群ps,将其所包含的每个寻优个体Xi∈ps初始化为范围R=[0,1]内均匀分布的M维随机矢量;
迭代计数器初始化模块,用于设定算法迭代总次数为G,初始化迭代计数器g=1;
适应度函数值计算模块,用于计算进化种群ps中每个寻优个体的共享适应度函数值;
种群优化模块,用于在计算所有寻优个体的共享适应度函数值后,使用启发式计算智能算法优化进化种群ps;
迭代计数器更新模块,用于更新迭代计数器g=g+1,若g<G,则返回适应度函数值计算模块;否则本次优化结束,进入映射模块;
映射模块,用于对于优化后进化种群ps中的每个寻优个体Xi,将其映射为选择矢量Si;
共表达权值矩阵构造模块,用于构造对称的共表达权值矩阵Wk={wp,q}M×M,其中对角线元素wp,p为所有Si中代谢特征矢量Fp被选中的次数,p∈M:
其余元素wp,q则为Si中代谢特征矢量Fp与Fq被同时选中的次数,p,q∈M,p≠q:
wp,q=∑i∈|ps|sp∩sq;sp,sq∈Si;
运行计数器更新模块,用于更新运行计数器k=k+1,若k<K,则返回进化种群构造模块,否则特征选择完成,进入平均模块;
平均模块,用于对每次运行所获得的共表达权值矩阵进行平均,并计算其对应的概率,得到最终的共表达权值矩阵为Ω={ωp,q}M×M,其中|ps|为进化种群ps中的寻优个体总数:
采样模块,用于将每次特征选择中最终输出的每个Si视作优化算法对于代谢数据集空间的一次采样,其sm∈Si服从概率pm的伯努利分布,则wp,p即为服从B(|ps|,pm)二次分布的随机变量;
稳态结果输出模块,用于将最终的共表达权值矩阵视作组合学习投票方法的稳态结果;
代谢共表达网络计算模块,用于使用最终的共表达权值矩阵中的对角线元素ωp,p作为节点p的重要性权重,其余任意ωp,q,p≠q作为节点Fp与Fq之间的连接权重,构建全连通加权网络G,而后移除其中权重小于阈值ωt的节点与边,形成该原始的代谢特征数据集F*的代谢共表达网络;
代谢共表达网络输出模块,用于输出所述代谢共表达网络作为结果。
所述的启发式代谢共表达网络的构建系统,其中,所述适应度函数值计算模块具体包括:
二值化单元,用于设若输入个体为Xi={xm;m=1,2,...,M},其各维度上均为R范围内的实数值,将其二值化为离散的选择矢量Si={sm;m=1,2,...,M}:
选择单元,用于对于Si中任意第m个选择值sm,若其值为1,则选择对应代谢特征矢量Fm包含于所构造的特征子集FS中,否则Fm将不会被选中;
FS={Fm;m=1,2,…,M,sm=1};
原始适应度函数值计算单元,用于计算FS中多变量的近似互信息值作为原始适应度函数值;
定义单元,用于定义稀疏适应度函数值为矢量Xi的1范数:
fspr.(Xi)=‖Xi‖1;
总体适应度函数值计算单元,用于计算当前个体Xi的总体适应度函数值为:
f(Xi)=fraw(Xi)+λfspr.(Xi)
其中λ为拉格朗日乘数;
判断单元,用于若每个寻优个体的总体适应度函数值都已计算,则转至共享适应度函数值计算单元,否则转至二值化单元;
共享适应度函数值计算单元,用于计算各寻优个体的共享适应度函数值:
其中r为聚集半径,∈为驱散因子。
所述的启发式代谢共表达网络的构建系统,其中,所述原始适应度函数值计算单元具体包括:
互信息计算子单元,用于设若C为F的N个样本所对应的类标矢量,则FS的互信息计算为:
其中p(c)表示类标c的出现概率,H()表示变量的熵;
边权值计算子单元,用于使用FS中的N个样本作为节点,其相互欧氏距离作为边的权值,构造最小生成树,则Lγ(FS)为此最小生成树的边权值总和:
其中γ为接近于0的正值常数;
函数值计算子单元,用于计算FS的多变量互信息为:
从而原始适应度函数值定义为:
fraw(Xi)=-Iappx.(FS;C)。
有益效果:本发明根据最大依赖准则(Max-DependencyCriteria)将多个代谢物特征的互信息(MultivariateMutualInformation)作为适应度函数值,并使用启发式计算智能(ComputationalIntelligence)多模优化算法(MultimodalOptimization)对最优特征子集进行寻优搜索。通过多次运行这一优化过程,将各次结果进行组合学习,构造共表达网络结构。最后,通过概率模型计算切分阈值,获得准确、稳定的代谢共表达网络。
附图说明
图1为本发明一种启发式代谢共表达网络的构建方法较佳实施例的流程图。
图2为本发明中使用FS中的样本点构造最小生成树的具体流程图。
图3为本发明中使用阈值切分构造代谢共表达网络的具体流程图。
具体实施方式
本发明提供一种启发式代谢共表达网络的构建方法及系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1为本发明一种启发式代谢共表达网络的构建方法较佳实施例的流程图,如图所示,其包括步骤:
1)、对原始的代谢特征数据集F*进行正规化预处理,使其中所有M个代谢特征矢量在每个维度上都具有0均值及单位方差:
F={Fm;m=1,2,…,M}为预处理后的代谢特征数据集,μm、δm分别为第m个原始的代谢特征矢量F* m的均值与方差;
2)、设定特征选择总运行次数为K,初始化运行计数器k=1;
3)、构造多模优化的进化种群ps,将其所包含的每个寻优个体Xi∈ps初始化为范围R=[0,1]内均匀分布的M维随机矢量;
4)、设定算法迭代总次数为G,初始化迭代计数器g=1;
5)、计算进化种群ps中每个寻优个体的共享适应度函数值;
6)、在计算所有寻优个体的共享适应度函数值后,使用启发式计算智能算法优化进化种群ps;
7)、更新迭代计数器g=g+1,若g<G,则返回5);否则本次优化结束,进入步骤8);
8)、对于优化后进化种群ps中的每个寻优个体Xi,将其映射为选择矢量Si;
9)、构造对称的共表达权值矩阵Wk={wp,q}M×M,其中对角线元素wp,p为所有Si中代谢特征矢量Fp被选中的次数,p∈M:
其余元素wp,q则为Si中代谢特征矢量Fp与Fq被同时选中的次数,p,q∈M,p≠q:
wp,q=∑i∈|ps|sp∩sq;sp,sq∈Si;
10)、更新运行计数器k=k+1,若k<K,则返回步骤3),否则特征选择完成,进入步骤11);
11)、对每次运行所获得的共表达权值矩阵进行平均,并计算其对应的概率,得到最终的共表达权值矩阵为Ω={ωp,q}M×M,其中|ps|为进化种群ps中的寻优个体总数:
12)、将每次特征选择中最终输出的每个Si视作优化算法对于代谢数据集空间的一次采样,其sm∈Si服从概率pm的伯努利分布,则wp,p即为服从B(|ps|,pm)二次分布的随机变量;
13)、将最终的共表达权值矩阵视作组合学习投票方法的稳态结果;
14)、使用最终的共表达权值矩阵中的对角线元素ωp,p作为节点p的重要性权重,其余任意ωp,q,p≠q作为节点Fp与Fq之间的连接权重,构建全连通加权网络G,而后移除其中权重小于阈值ωt的节点与边,形成该原始的代谢特征数据集F*的代谢共表达网络;
15)、输出所述代谢共表达网络作为结果。
具体来说,在步骤1)中,在进行特征选择前,对原始的代谢特征数据集F*进行正规化预处理(Standardization),使其所有M个代谢特征矢量F* m在每个维度上都具有0均值及单位方差:
其中F={Fm;m=1,2,…,M}为预处理后的代谢特征数据集,μm、δm分别为第m个原始的代谢特征矢量F* m的均值与方差。
在步骤2)中,设定特征选择总运行次数为K,初始化运行计数器k=1;
在步骤3)中,构造多模优化的进化种群ps,所包含的每个寻优个体Xi∈ps初始化为范围R=[0,1]内均匀分布的M维随机矢量;
在步骤4)中,开始特征选择子集的优化设计。设定算法迭代总次数为G,初始化迭代计数器g=1。
在步骤5)中,计算进化种群ps中每个寻优个体的共享适应度函数值。
所述步骤5)具体包括:
a、设若输入个体(即输入的寻优个体)为Xi={xm;m=1,2,...,M},其各维度上均为R范围内的实数值,将其二值化为离散的选择矢量Si={sm;m=1,2,...,M}:oherwise即指除xm>0.5之外的其他情况。
b、对于Si中任意第m个选择值sm,若其值为1,则选择对应代谢特征矢量Fm包含于所构造的特征子集FS中,否则Fm将不会被选中;
FS={Fm;m=1,2,…,M,sm=1};
c、计算FS中多变量的近似互信息值作为原始适应度函数值;
d、定义稀疏适应度函数值为矢量Xi的1范数:
fspr.(Xi)=‖Xi‖1;
其引入可使算法选择最为重要的核心代谢物特征。
e、计算当前个体Xi的总体适应度函数值为:
f(Xi)=fraw(Xi)+λfspr.(Xi)
其中λ为拉格朗日乘数;
f、若每个寻优个体的总体适应度函数值都已计算,则转至步骤5).g),否则转至步骤5).a);
g、使用FitnessSharing(适应度函数值共享)方法计算各寻优个体的共享适应度函数值:
其中r为聚集半径,∈为驱散因子。此方法可使搜索算法进行多模优化,获得特征空间中所有的全局或局部最优解(亦即特征选择子集)。
所述步骤c具体包括:
i、设若C为F的N个样本所对应的类标矢量,则FS的互信息计算为:
其中p(c)表示类标c的出现概率,其值可根据数据集样本进行估算,H()表示变量的熵;可使用Rényi’sα-Entropy取得:
其中α为趋近于1的常数,β为与概率分布无关的偏差修正值,因此有:
H(FS)∝Lγ(FS)
呈正相关关系。
ii、使用FS中的N个样本作为节点(Vertices),其相互欧氏距离作为边(Edges)的权值,构造最小生成树(MinimumSpanningTree,MST),则Lγ(FS)为此MST的边权值总和:
其中γ为接近于0的正值常数;常用的MST构造算法包括Prim算法等。
如图2所示,FS={pt1=(9,3),pt2=(3,5),pt3=(7,7),pt4=(5,10),pt5=(10,12)},FS由5个样本点构成,则其MST有:
e1,3=‖pt1-pt3‖=4.47;
e2,3=‖pt2-pt3‖=4.47;
e3,5=‖pt3-pt5‖=4.47;
e3,4=‖pt3-pt4‖=4.47;
L1(FS)=4.47+4.47+5.83+3.60=18.37。
iii、计算FS的多变量互信息为:
其值越大则表示该代谢特征子集与目标生理状态的关联更为显著,从而原始适应度函数值定义为:
fraw(Xi)=-Iappx.(FS;C)。
在步骤6)中,在计算所有寻优个体的共享适应度函数值后,使用启发式计算智能算法优化进化种群ps;常用方法为差分进化(DifferentialEvolution,DE)与Memetic算法(MemeticAlgorithm,MA)等。
在步骤7)中,更新迭代计数器g=g+1。若g<G,则返回5)。否则本次优化结束,转至8)。
在步骤8)中,对于优化后ps中的每个寻优个体Xi,使用5).a)中的方法映射为选择矢量Si。
在步骤9)中,构造对称的共表达权值矩阵Wk={wp,q}M×M,其中对角线元素wp,p,p∈M为所有Si中代谢特征矢量Fp被选中的次数:
其余元素wp,q,p,q∈M,p≠q则为Si中特征Fp与Fq被同时选中的次数:
在步骤10)中,更新运行计数器k=k+1。若k<K,则返回3)。否则特征选择完成,转至9)。
在步骤11)中,对每次运行所获得的共表达权值矩阵Wk进行平均,并计算其对应的概率,得到最终的共表达权值矩阵为Ω={ωp,q}M×M,其中|ps|为进化种群中的寻优个体总数:
在步骤12)中,设若在每次特征选择中,将最终输出的每个Si视作优化算法对于代谢数据集空间的一次采样,其sm∈Si服从概率pm的伯努利分布。则wp,p即为服从B(|ps|,pm)二次分布的随机变量。则在种群规模|ps|设置为:
的条件下,其可视作服从均值为μ=|ps|pm,方差为σ=|ps|pm(1-pm)的正态分布N(μ,σ)。从而总运行次数K可通过以下公式求得:
其中z*为置信值,ε为均值的最大误差范围。
例如,假设Fm的选择概率pm∈[0.05,0.95],则在每次特征选择使用|ps|=100个寻优个体的条件下,重复运行K=6次,即可在98%的置信区间内(z*=2.33),保证ωp,p的均值误差不超过ε=5%。
在步骤13)中,在该置信值下,可将最终的共表达权值矩阵Ω视作组合学习BootstrapAggregating投票方法的稳态结果,例如可设置切分阈值为ωt=0.5。
在步骤14)中,如图3所示,使用最终的共表达权值矩阵Ω中的对角线元素ωp,p作为节点p(代谢物特征Fp)的重要性权重,其余任意ωp,q,p≠q作为节点Fp、Fq间的连接权重,构建全连通加权网络G。而后移除其中权重小于阈值ωt的节点与边,形成该代谢特征数据集F*的代谢共表达网络。
在步骤15)中,输出所述代谢共表达网络作为结果。
基于上述方法,本发明还提供一种启发式代谢共表达网络的构建系统,其包括:
正规化模块,用于对原始的代谢特征数据集F*进行正规化预处理,使其中所有M个代谢特征矢量在每个维度上都具有0均值及单位方差:
F={Fm;m=1,2,…,M}为预处理后的代谢特征数据集,μm、δm分别为第m个原始的代谢特征矢量F* m的均值与方差;
运行计数器初始化模块,用于设定特征选择总运行次数为K,初始化运行计数器k=1;
进化种群构造模块,用于构造多模优化的进化种群ps,将其所包含的每个寻优个体Xi∈ps初始化为范围R=[0,1]内均匀分布的M维随机矢量;
迭代计数器初始化模块,用于设定算法迭代总次数为G,初始化迭代计数器g=1;
适应度函数值计算模块,用于计算进化种群ps中每个寻优个体的共享适应度函数值;
种群优化模块,用于在计算所有寻优个体的共享适应度函数值后,使用启发式计算智能算法优化进化种群ps;
迭代计数器更新模块,用于更新迭代计数器g=g+1,若g<G,则返回适应度函数值计算模块;否则本次优化结束,进入映射模块;
映射模块,用于对于优化后进化种群ps中的每个寻优个体Xi,将其映射为选择矢量Si;
共表达权值矩阵构造模块,用于构造对称的共表达权值矩阵Wk={wp,q}M×M,其中对角线元素wp,p为所有Si中代谢特征矢量Fp被选中的次数,p∈M:
其余元素wp,q则为Si中代谢特征矢量Fp与Fq被同时选中的次数,p,q∈M,p≠q:
wp,q=∑i∈|ps|sp∩sq;sp,sq∈Si;
运行计数器更新模块,用于更新运行计数器k=k+1,若k<K,则返回进化种群构造模块,否则特征选择完成,进入平均模块;
平均模块,用于对每次运行所获得的共表达权值矩阵进行平均,并计算其对应的概率,得到最终的共表达权值矩阵为Ω={ωp,q}M×M,其中|ps|为进化种群ps中的寻优个体总数:
采样模块,用于将每次特征选择中最终输出的每个Si视作优化算法对于代谢数据集空间的一次采样,其sm∈Si服从概率pm的伯努利分布,则wp,p即为服从B(|ps|,pm)二次分布的随机变量;
稳态结果输出模块,用于将最终的共表达权值矩阵视作组合学习投票方法的稳态结果;
代谢共表达网络计算模块,用于使用最终的共表达权值矩阵中的对角线元素ωp,p作为节点p的重要性权重,其余任意ωp,q,p≠q作为节点Fp与Fq之间的连接权重,构建全连通加权网络G,而后移除其中权重小于阈值ωt的节点与边,形成该原始的代谢特征数据集F*的代谢共表达网络;
代谢共表达网络输出模块,用于输出所述代谢共表达网络作为结果。
其中,所述适应度函数值计算模块具体包括:
二值化单元,用于设若输入个体为Xi={xm;m=1,2,...,M},其各维度上均为R范围内的实数值,将其二值化为离散的选择矢量Si={sm;m=1,2,...,M}:
选择单元,用于对于Si中任意第m个选择值sm,若其值为1,则选择对应代谢特征矢量Fm包含于所构造的特征子集FS中,否则Fm将不会被选中;
FS={Fm;m=1,2,…,M,sm=1};
原始适应度函数值计算单元,用于计算FS中多变量的近似互信息值作为原始适应度函数值;
定义单元,用于定义稀疏适应度函数值为矢量Xi的1范数:
fspr.(Xi)=‖Xi‖1;
总体适应度函数值计算单元,用于计算当前个体Xi的总体适应度函数值为:
f(Xi)=fraw(Xi)+λfspr.(Xi)
其中λ为拉格朗日乘数;
判断单元,用于若每个寻优个体的总体适应度函数值都已计算,则转至共享适应度函数值计算单元,否则转至二值化单元;
共享适应度函数值计算单元,用于计算各寻优个体的共享适应度函数值:
其中r为聚集半径,∈为驱散因子。
其中,所述原始适应度函数值计算单元具体包括:
互信息计算子单元,用于设若C为F的N个样本所对应的类标矢量,则FS的互信息计算为:
其中p(c)表示类标c的出现概率,H()表示变量的熵;
边权值计算子单元,用于使用FS中的N个样本作为节点,其相互欧氏距离作为边的权值,构造最小生成树,则Lγ(FS)为此最小生成树的边权值总和:
其中γ为接近于0的正值常数;
函数值计算子单元,用于计算FS的多变量互信息为:
从而原始适应度函数值定义为:
fraw(Xi)=-Iappx.(FS;C)。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (6)
1.一种启发式代谢共表达网络的构建方法,其特征在于,包括步骤:
A、对原始的代谢特征数据集F*进行正规化预处理,使其中所有M个代谢特征矢量在每个维度上都具有0均值及单位方差:
F={Fm;m=1,2,…,M}为预处理后的代谢特征数据集,μm、δm分别为第m个原始的代谢特征矢量F* m的均值与方差;
B、设定特征选择总运行次数为K,初始化运行计数器k=1;
C、构造多模优化的进化种群ps,将其所包含的每个寻优个体Xi∈ps初始化为范围R=[0,1]内均匀分布的M维随机矢量;
D、设定算法迭代总次数为G,初始化迭代计数器g=1;
E、计算进化种群ps中每个寻优个体的共享适应度函数值;
F、在计算所有寻优个体的共享适应度函数值后,使用启发式计算智能算法优化进化种群ps;
G、更新迭代计数器g=g+1,若g<G,则返回步骤E;否则本次优化结束,进入步骤H;
H、对于优化后进化种群ps中的每个寻优个体Xi,将其映射为选择矢量Si;
I、构造对称的共表达权值矩阵Wk={wp,q}M×M,其中对角线元素wp,p为所有Si中代谢特征矢量Fp被选中的次数,p∈M:
其余元素wp,q则为Si中代谢特征矢量Fp与Fq被同时选中的次数,p,q∈M,p≠q:
wp,q=Σi∈|ps|sp∩sq;sp,sq∈Si;
J、更新运行计数器k=k+1,若k<K,则返回步骤C,否则特征选择完成,进入步骤K;
K、对每次运行所获得的共表达权值矩阵进行平均,并计算其对应的概率,得到最终的共表达权值矩阵为Ω={ωp,q}M×M,其中|ps|为进化种群ps中的寻优个体总数:
L、将每次特征选择中最终输出的每个Si视作优化算法对于代谢特征数据集空间的一次采样,其sm∈Si服从概率pm的伯努利分布,则wp,p即为服从B(|ps|,pm)二次分布的随机变量;
M、将最终的共表达权值矩阵视作组合学习投票方法的稳态结果;
N、使用最终的共表达权值矩阵中的对角线元素ωp,p作为节点p的重要性权重,其余任意ωp,q,p≠q作为节点Fp与Fq之间的连接权重,构建全连通加权网络G,而后移除其中权重小于阈值ωt的节点与边,形成该原始的代谢特征数据集F*的代谢共表达网络;
O、输出所述代谢共表达网络作为结果。
2.根据权利要求1所述的启发式代谢共表达网络的构建方法,其特征在于,所述步骤E具体包括:
E1、设若输入个体为Xi={xm;m=1,2,...,M},其各维度上均为R范围内的实数值,将其二值化为离散的选择矢量Si={sm;m=1,2,...,M}:
E2、对于Si中任意第m个选择值sm,若其值为1,则选择对应代谢特征矢量Fm包含于所构造的特征子集FS中,否则Fm将不会被选中;
Fs={Fm;m=1,2,…,M,sm=1};
E3、计算FS中多变量的近似互信息值作为原始适应度函数值;
E4、定义稀疏适应度函数值为矢量Xi的1范数:
fspr.(Xi)=‖Xi‖1;
E5、计算当前个体Xi的总体适应度函数值为:
f(Xi)=fraw(Xi)+λfspr.(Xi);
其中λ为拉格朗日乘数;
E6、若每个寻优个体的总体适应度函数值都已计算,则转至步骤E7,否则转至步骤E1;
E7、计算各寻优个体的共享适应度函数值:
其中r为聚集半径,ε为驱散因子。
3.根据权利要求2所述的启发式代谢共表达网络的构建方法,其特征在于,所述步骤E3具体包括:
E31、设若C为F的N个样本所对应的类标矢量,则FS的互信息计算为:
I(Fs;C)=H(Fs)-H(Fs|C)=H(Fs)-∑c∈cp(c)H(Fs|c);
其中p(c)表示类标c的出现概率,H()表示变量的熵;
E32、使用FS中的N个样本作为节点,其相互欧氏距离作为边的权值,构造最小生成树,则Lγ(FS)为此最小生成树的边权值总和:
Lγ(Fs)=∑ei,k∈MST(Fs)||ei,j||I;
其中γ为接近于0的正值常数;
E33、计算FS的多变量互信息为:
Iappx.(Fs;C)=Lγ(Fs)-∑c∈cp(c)Lγ(Fs|c);
从而原始适应度函数值定义为:
fraw(Xi)=-IappX.(Fs;C)。
4.一种启发式代谢共表达网络的构建系统,其特征在于,包括:
正规化模块,用于对原始的代谢特征数据集F*进行正规化预处理,使其中所有M个代谢特征矢量在每个维度上都具有0均值及单位方差:
F={Fm;m=1,2,…,M}为预处理后的代谢特征数据集,μm、wm分别为第m个原始的代谢特征矢量F* m的均值与方差;
运行计数器初始化模块,用于设定特征选择总运行次数为K,初始化运行计数器k=1;
进化种群构造模块,用于构造多模优化的进化种群ps,将其所包含的每个寻优个体Xi∈ps初始化为范围R=[0,1]内均匀分布的M维随机矢量;
迭代计数器初始化模块,用于设定算法迭代总次数为G,初始化迭代计数器g=1;
适应度函数值计算模块,用于计算进化种群ps中每个寻优个体的共享适应度函数值;
种群优化模块,用于在计算所有寻优个体的共享适应度函数值后,使用启发式计算智能算法优化进化种群ps;
迭代计数器更新模块,用于更新迭代计数器g=g+1,若g<G,则返回适应度函数值计算模块;否则本次优化结束,进入映射模块;
映射模块,用于对于优化后进化种群ps中的每个寻优个体Xi,将其映射为选择矢量Si;
共表达权值矩阵构造模块,用于构造对称的共表达权值矩阵Wk={wp,q}M×M,其中对角线元素wp,p为所有Si中代谢特征矢量Fp被选中的次数,p∈M:
其余元素wp,q则为Si中代谢特征矢量Fp与Fq被同时选中的次数,p,q∈M,p≠q:
wp,q=∑i∈|ps|sp∩sq;sp,sq∈si;
运行计数器更新模块,用于更新运行计数器k=k+1,若k<K,则返回进化种群构造模块,否则特征选择完成,进入平均模块;
平均模块,用于对每次运行所获得的共表达权值矩阵进行平均,并计算其对应的概率,得到最终的共表达权值矩阵为Ω={ωp,q}M×M,其中|ps|为进化种群ps中的寻优个体总数:
采样模块,用于将每次特征选择中最终输出的每个Si视作优化算法对于代谢数据集空间的一次采样,其sm∈Si服从概率pm的伯努利分布,则wp,p即为服从B(|ps|,pm)二次分布的随机变量;
稳态结果输出模块,用于将最终的共表达权值矩阵视作组合学习投票方法的稳态结果;
代谢共表达网络计算模块,用于使用最终的共表达权值矩阵中的对角线元素ωp,p作为节点p的重要性权重,其余任意ωp,q,p≠q作为节点Fp与Fq之间的连接权重,构建全连通加权网络G,而后移除其中权重小于阈值ωt的节点与边,形成该原始的代谢特征数据集F*的代谢共表达网络;
代谢共表达网络输出模块,用于输出所述代谢共表达网络作为结果。
5.根据权利要求4所述的启发式代谢共表达网络的构建系统,其特征在于,所述适应度函数值计算模块具体包括:
二值化单元,用于设若输入个体为Xi={xm;m=1,2,...,M},其各维度上均为R范围内的实数值,将其二值化为离散的选择矢量Si={sm;m=1,2,...,M}:
选择单元,用于对于Si中任意第m个选择值sm,若其值为1,则选择对应代谢特征矢量Fm包含于所构造的特征子集FS中,否则Fm将不会被选中;
Fs={Fm;m=1,2,…,M,sm=1};
原始适应度函数值计算单元,用于计算FS中多变量的近似互信息值作为原始适应度函数值;
定义单元,用于定义稀疏适应度函数值为矢量Xi的1范数:
fspr.(Xi)=‖Xi‖1;
总体适应度函数值计算单元,用于计算当前个体Xi的总体适应度函数值为:
f(Xi)=fraw(Xi)+λfspr.(Xi)
其中λ为拉格朗日乘数;
判断单元,用于若每个寻优个体的总体适应度函数值都已计算,则转至共享适应度函数值计算单元,否则转至二值化单元;
共享适应度函数值计算单元,用于计算各寻优个体的共享适应度函数值:
其中r为聚集半径,ε为驱散因子。
6.根据权利要求5所述的启发式代谢共表达网络的构建系统,其特征在于,所述原始适应度函数值计算单元具体包括:
互信息计算子单元,用于设若C为F的N个样本所对应的类标矢量,则FS的互信息计算为:
其中p(c)表示类标c的出现概率,H()表示变量的熵;
边权值计算子单元,用于使用FS中的N个样本作为节点,其相互欧氏距离作为边的权值,构造最小生成树,则Lγ(FS)为此最小生成树的边权值总和:
其中γ为接近于0的正值常数;
函数值计算子单元,用于计算FS的多变量互信息为:
从而原始适应度函数值定义为:
fraw(Xi)=-Iappx.(Fs;C)。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610050607.XA CN105718999B (zh) | 2016-01-25 | 2016-01-25 | 一种启发式代谢共表达网络的构建方法及系统 |
US15/199,027 US20170212980A1 (en) | 2016-01-25 | 2016-06-30 | Construction method for heuristic metabolic co-expression network and the system thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610050607.XA CN105718999B (zh) | 2016-01-25 | 2016-01-25 | 一种启发式代谢共表达网络的构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105718999A true CN105718999A (zh) | 2016-06-29 |
CN105718999B CN105718999B (zh) | 2018-05-29 |
Family
ID=56154125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610050607.XA Expired - Fee Related CN105718999B (zh) | 2016-01-25 | 2016-01-25 | 一种启发式代谢共表达网络的构建方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20170212980A1 (zh) |
CN (1) | CN105718999B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110474324A (zh) * | 2019-08-01 | 2019-11-19 | 国网甘肃省电力公司电力科学研究院 | 一种配电网重构方法及系统 |
CN111128307A (zh) * | 2019-12-14 | 2020-05-08 | 中国科学院深圳先进技术研究院 | 代谢路径预测方法、装置、终端设备及可读存储介质 |
CN112270957A (zh) * | 2020-10-19 | 2021-01-26 | 西安邮电大学 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462812B (zh) * | 2020-03-11 | 2023-03-24 | 西北大学 | 一种基于特征层次的多目标系统发育树构建方法 |
CN113221275B (zh) * | 2021-05-11 | 2023-09-19 | 中国科学院半导体研究所 | 光子学结构的优化设计方法 |
CN113626954B (zh) * | 2021-08-17 | 2023-08-18 | 中国地质大学(武汉) | 基于分解的多目标信息处理方法、系统、计算机设备、终端 |
CN114093426B (zh) * | 2021-11-11 | 2024-05-07 | 大连理工大学 | 基于基因调控网络构建的标志物筛选方法 |
-
2016
- 2016-01-25 CN CN201610050607.XA patent/CN105718999B/zh not_active Expired - Fee Related
- 2016-06-30 US US15/199,027 patent/US20170212980A1/en not_active Abandoned
Non-Patent Citations (3)
Title |
---|
宋长新等: "《基因WGCNA算法的基因共表达网络构建理论及其R软件实现》", 《基因组学与应用生物学》 * |
汪涛等: "《基因共表达网络的构建及分析方法研究综述》", 《智能计算机与应用》 * |
钟诗龙等: "《用权重基因共表达网络分析识别心脏重构关键节点基因》", 《中国药理学通报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110474324A (zh) * | 2019-08-01 | 2019-11-19 | 国网甘肃省电力公司电力科学研究院 | 一种配电网重构方法及系统 |
CN111128307A (zh) * | 2019-12-14 | 2020-05-08 | 中国科学院深圳先进技术研究院 | 代谢路径预测方法、装置、终端设备及可读存储介质 |
CN112270957A (zh) * | 2020-10-19 | 2021-01-26 | 西安邮电大学 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
CN112270957B (zh) * | 2020-10-19 | 2023-11-07 | 西安邮电大学 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
US20170212980A1 (en) | 2017-07-27 |
CN105718999B (zh) | 2018-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718999A (zh) | 一种启发式代谢共表达网络的构建方法及系统 | |
EP3602413B1 (en) | Projection neural networks | |
Murakami et al. | Scalable GWR: A linear-time algorithm for large-scale geographically weighted regression with polynomial kernels | |
Parr et al. | Infill sampling criteria for surrogate-based optimization with constraint handling | |
Remesan et al. | Hydrological data driven modelling | |
Huang et al. | Mixture of regression models with varying mixing proportions: a semiparametric approach | |
CN110674323B (zh) | 基于虚拟标签回归的无监督跨模态哈希检索方法及系统 | |
Drton et al. | Binary models for marginal independence | |
CN109992673A (zh) | 一种知识图谱生成方法、装置、设备及可读存储介质 | |
CN102231151B (zh) | 一种农业领域本体自适应学习建模方法 | |
Raje et al. | A conditional random field–based downscaling method for assessment of climate change impact on multisite daily precipitation in the Mahanadi basin | |
CN111475637A (zh) | 用于推送知识点的数据处理、训练方法及装置 | |
Trattner et al. | Investigating the utility of the weather context for point of interest recommendations | |
CN111143539A (zh) | 基于知识图谱的教学领域问答方法 | |
Liu et al. | Pair-wise ranking based preference learning for points-of-interest recommendation | |
Sugasawa | Grouped heterogeneous mixture modeling for clustered data | |
Park et al. | A function emulation approach for doubly intractable distributions | |
Douma et al. | A multigroup extension to piecewise path analysis | |
Liu et al. | Collaborative tensor–topic factorization model for personalized activity recommendation | |
Sun et al. | Particle swarm algorithm: convergence and applications | |
CN116701734A (zh) | 地址文本的处理方法、设备及计算机可读存储介质 | |
Yang et al. | Profiling and pairing catchments and hydrological models with latent factor model | |
CN112101612A (zh) | 一种城镇燃气用量的预测方法、存储介质及终端设备 | |
Zimmerman et al. | Copula Modeling of Serially Correlated Multivariate Data with Hidden Structures | |
CN116166977A (zh) | 一种基于时序图神经网络的物联网服务聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180529 Termination date: 20190125 |