CN104063631A - 一种面向大数据的代谢组特征数据分析方法及其系统 - Google Patents

一种面向大数据的代谢组特征数据分析方法及其系统 Download PDF

Info

Publication number
CN104063631A
CN104063631A CN201410265541.7A CN201410265541A CN104063631A CN 104063631 A CN104063631 A CN 104063631A CN 201410265541 A CN201410265541 A CN 201410265541A CN 104063631 A CN104063631 A CN 104063631A
Authority
CN
China
Prior art keywords
data
metabolism
stack features
value
weight vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410265541.7A
Other languages
English (en)
Other versions
CN104063631B (zh
Inventor
周家锐
华韵之
纪震
朱泽轩
曾启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410265541.7A priority Critical patent/CN104063631B/zh
Priority to PCT/CN2014/080283 priority patent/WO2015188395A1/zh
Publication of CN104063631A publication Critical patent/CN104063631A/zh
Application granted granted Critical
Publication of CN104063631B publication Critical patent/CN104063631B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开一种面向大数据的代谢组特征数据分析方法及其系统,所述方法为:A、接收输入的代谢组特征数据,将其分割为多个数据块,并将该多个数据块映射送入映射规约框架中的各个运算节点中;B、利用计算智能方法同时对多个数据块上的加权权值进行优化;C、将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。本发明系统的数据分块处理机制降低了加权分析难度,有效提升了预测准确性。且并行化结构使系统可部署至多个计算节点,显著减少运算时间的同时能够保证系统的效率与稳定性。本系统应用的计算智能算法可有效地解决复杂的大规模优化问题。其预测准确性优于现有算法,从而实现可对目标生理状态进行更为有效的预估。

Description

一种面向大数据的代谢组特征数据分析方法及其系统
技术领域
本发明涉及生物信息学领域,尤其涉及一种面向大数据的代谢组特征数据分析方法及其系统。
背景技术
代谢物是生物体内完成代谢过程的小分子有机化合物总称,包含了丰富的生理状态信息。代谢组学是代谢物的整体系统性研究方法,可有效揭示代谢现象背后的生化机理。与传统研究方法相比,代谢组学被认为可更全面地展示生命体的真实状态。因此获得了越来越多的重视,被广泛应用于诸多科研与实用领域中。
代谢物经采集、检测获得的信号数据,称为代谢组特征数据,是代谢组学的研究基本对象。通常使用机器学习方法对其进行分析,以挖掘其中的生理状态信息。现有技术一般使用基于特征选择(Feature Selection)的机器学习算法对代谢组特征数据进行分析,其主要包含两个部分:(1).使用特征选择对输入数据进行降维运算,以厘清其中重要的特征信号以及其所对应的代谢物质,并消除无关噪声,从而提升预测算法性能。目前常用的特征选择方法包括主成份分析(Principal Component Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA)以及最小冗余最大关联(Minimum Redundancy Maximum Relevance,mRMR)选择等。(2).使用分类/回归算法对降维后的数据进行预测学习,估计输入特征所可能产生的生理结果,以指导后续医疗、科研等相关工作。目前常用的分类/回归算法包括k-近邻算法(k-Nearest Neighbor,k-NN)、线性回归(Linear Regression)、逻辑回归(Logistic Regression)以及支持向量机(Support Vector Machine,SVM)等。但由于代谢组特征数据一般都具有规模庞大、特征维度高、包含大量噪声、以及特征信号与目标状态间呈非线性关系等特点。上述的传统方法往往难以在合理运算时间内获得令人满意的学习结果。
特征加权分析(Feature Weighting)是特征选择当权值可取得[0,1]范围内任意实数值时的泛化形式。与特征选择相比,特征加权更适合被用于代谢组特征数据的分析:首先,现有研究表明,特征加权可获得比特征选择更佳的预测效果提升能力,所形成的系统可对目标生理状态进行更为精确的估计。其次,加权权值为连续数值,可更为准确地描述所对应代谢物信号与目标状态间的具体关联,这一信息对后续相关研究具有重要价值。但代谢组特征数据规模庞大、维度较高,其特征加权属于复杂的大规模多模优化问题,难以使用传统数学方法进行处理。因此严重限制了其实际运用。
现有针对代谢组特征数据的机器学习算法,其主要缺陷在于:
其一,特征选择中的权值仅能取得{0,1}两个离散值,而无法对代谢物信号的重要性差异进行更为精确的描述。例如,若两种代谢物质对目标生理状态都具有影响,但其程度有所差别,则其所对应信号的权值也应各不相同。影响较大的代谢物信号权值也应较大,反之亦然。但特征选择仅能赋予0或1两种权值,难以描述此类差异性。导致重要的生物学信息丢失。
其二,特征加权算法中权值设定难度较大,目前缺少行之有效的解决方法。特别是对于大数据上的特征加权,现有算法都难以进行有效处理,而仅能近求解。从而严重影响了分析性能。
其三,现有机器学习技术主要针对小规模数据进行设计,并未考虑代谢组特征的大数据情况。这往往造成面对庞大数据时,分类/回归算法性能显著下降,运算时间指数增加。另外现有算法的运算复杂度较高,且架构上难以并行化处理,导致无法在合理时间内对代谢组大数据进行有效分析。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种面向大数据的代谢组特征数据分析方法及其系统,旨在解决目前数据分析方法无法对代谢组大数据进行快速有效分析的问题。
本发明的技术方案如下:
一种面向大数据的代谢组特征数据分析方法,其中,所述方法包括以下步骤:
A、接收输入的代谢组特征数据,将其分割为多个数据块,并将该多个数据块映射送入映射规约(MapReduce)框架中的各个运算节点中;
B、利用计算智能方法同时对多个数据块上的加权权值进行优化;
C、将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。
所述的面向大数据的代谢组特征数据分析方法,其中,所述代谢组特征数据表示为代谢组特征数据集其中Fn=[f1,f2,…,fD]为第n个特征矢量,N为数据集大小,D为特征矢量总维数;所述多个数据块的数量为M,且每个数据块包含L=D/M个元素,设定系统总迭代次数为K次。
所述的面向大数据的代谢组特征数据分析方法,其中,所述步骤A具体为:
A1、读取初始化迭代计数器k并对所读数值进行判断,当k=0时,构造D维加权矢量W0,其值初始化为[0,1]范围内的随机值,当k>0时,将上一次迭代的输出权值作为本次加权矢量的初始值,即Wk=Wk-1
A2、构造包含M个空集的数据块集以及包含所有索引值的索引矢量D=[1,2,3,…,D],并初始化数据块计数器m=0。
A3、构造子索引矢量子加权矢量以及子特征矢量集其中任意子特征矢量有并初始化块内计数器l=0。
A4、从索引矢量D中随机选择一索引值d加入子索引矢量Im中,同时将索引值d从D中移除,将加权矢量Wk在第d维上的权值wd加入子加权矢量Wk,m,轮流取得代谢组特征数据集中每个特征矢量Fn,将其在第d维上的特征信号值fd加入的第n个子特征矢量Fm,n
A5、更新块内计数器l=l+1,并判断l是否小于L,若是,则跳转至步骤A2,若否,则执行步骤A6。
A6、添加当前数据块为并更新数据块计数器m=m+1。并判断m是否小于M,若是,则跳转至步骤A1,若否,则执行步骤A7。
A7、将分割后的数据块集映射送入映射规约框架中的各个运算节点。
所述的面向大数据的代谢组特征数据分析方法,其中,所述步骤A1之前还包括:初始化迭代计数器k=0,
所述的面向大数据的代谢组特征数据分析方法,其中,所述步骤B具体为:
B1、针对数据块构造计算智能方法的进化种群ps,其中每个寻优个体的候选解为L维矢量Xi,其中i=1,2,…,|ps|,该Xi值初始化为Xi=Wk,m
B2、设置计算智能方法最大迭代次数为G,初始化迭代计数器g=0;
B3、计算进化种群ps中每个寻优个体的适应度函数值,并根据各寻优个体的适应度函数值,使用计算智能方法优化进化种群ps;
B4、更新迭代计数器g=g+1,并判断g是否小于G,若是,则跳转至步骤B3,若否,则执行步骤B5;
B5、将种群中最优个体的候选解Xbest作为优化取得的最佳子加权矢量Wk,m,即
W k , m = X best = arg min X i ∈ ps f ( X i ) ;
B6、将子加权矢量Wk,m与子索引矢量Im构成键值对Pm=<Im:Wk,m>,作为映射规约框架中映射过程的输出。
所述的面向大数据的代谢组特征数据分析方法,其中,所述计算智能方法包括差分进化、粒子群优化或文化基因算法。
所述的面向大数据的代谢组特征数据分析方法,其中,所述步骤B3中计算进化种群ps中每个寻优个体的适应度函数值具体为:
B31、对于输入的第i个寻优个体,将其候选解矢量Xi作为子加权矢量Wm
B32、将Wm中的各子特征矢量Fm,n相乘以进行加权,当Wm中任一权值wl小于预设阈值δ,则删除此维度上的对应代谢特征信号fl,实现降维,最终形成加权子特征矢量F* m,n
F m , n * = F m , n &CircleTimes; W m = { f l &times; w l | f l &Element; F m , n , w l &Element; W m , w l > &delta; } ;
B33、将加权后的子特征矢量集合用于训练机器学习分类/回归算法,获得分类/回归算法的预测准确率;
B34、将分类/回归算法的预测准确率作为当前个体Xi的适应度函数值f(Xi)。
所述的面向大数据的代谢组特征数据分析方法,其中,所述步骤C具体为:
C1、收集输出的所有M个键值对,构成键值对集合并对其进行规约处理;
C2、构造全零值的D维加权矢量Wk=[0,0,…,0]。初始化数据块计数器m=0;
C3、取得键值对集合中的第m个键值对Pm=<Im:Wk,m>,初始化块内计数器l=0;
C4、将子加权矢量Wk,m中第l维上的权值,添加至加权矢量Wk的第Im[l]维上,即Wk={wd=Wk,m[l]|d=Im[l]},l=1,2,…,L;
C5、更新块内计数器l=l+1,判断l是否小于L,若是,则跳转至步骤C4,若否,则执行步骤C6;
C6、更新数据块计数器m=m+1,判断m是否小于M,若是,则跳转至步骤C3,若否,则执行步骤C7;
C7、更新迭代计数器k=k+1,判断k是否小于K,若是,则跳转至步骤A,若否,则执行步骤C8;
C8、利用最终得到的加权矢量WK对输入代谢组特征数据集进行加权。
所述的面向大数据的代谢组特征数据分析方法,其中,利用最终得到的加权矢量WK对输入代谢组特征数据集进行加权,而后将其用于训练机器学习算法,获得整体的分类/回归预测准确率,将加权矢量WK与分类/回归预测准确率作为结果输出。
一种面向大数据的代谢组特征数据分析系统,其中,所述系统包括:
数据分割模块,用于接收输入的代谢组特征数据,将其分割为多个数据块,并将该多个数据块映射送入映射规约框架中的各个运算节点中;
启发式加权模块,用于利用计算智能方法同时对经数据分割模块分割后的多个数据块上的加权权值进行优化;
权值融合模块,用于将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。
有益效果:本发明提供一种面向大数据的代谢组特征数据分析方法及其系统,该系统是针对代谢组特征大数据的特点所设计的基于MapReduce框架的并行加权分析系统。一方面,系统的数据分块处理机制降低了加权分析难度,有效提升了预测准确性。另一方面,系统的并行化结构意味着系统可部署至多个计算节点(如多台计算机)同时处理,可显著降低整体运算时间。此外,MapReduce框架可对各运算节点进行调度、调节与均衡,保证系统的效率与稳定性。另外本系统所应用的计算智能算法可有效地解决复杂的大规模优化问题。通过将其引入各启发式加权模块可获得更佳的分析结果。其预测准确性优于其它现有特征加权、特征选择算法,可对目标生理状态进行更为有效的预估。
附图说明
图1为本发明具体实施例中面向大数据的代谢组特征数据分析方法流程图。
图2为本发明具体实施例中面向大数据的代谢组特征数据分析系统的原理框图。
图3为本发明的面向大数据的代谢组特征数据分析系统的工作原理图。
图4为图1中步骤S100进行数据分割过程示意图。
图5为图1中步骤S200对数据块加权权值优化过程示意图。
图6为图1中步骤S300对优化后加权权值进行规约处理过程示意图。
具体实施方式
本发明提供一种面向大数据的代谢组特征数据分析方法及其系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示的一种面向大数据的代谢组特征数据分析方法,其中,所述方法包括以下步骤:
S100、接收输入的代谢组特征数据,将其分割为多个数据块,并将该多个数据块映射送入映射规约框架中的各个运算节点中。
其中,设若输入的代谢组特征数据为代谢组特征数据集 其中Fn=[f1,f2,…,fD]为第n个特征矢量,N为数据集大小,D为特征矢量总维数;所述多个数据块的数量为M,且每个数据块包含L=D/M个元素,设定系统总迭代次数为K次。
S200、利用计算智能方法同时对多个数据块上的加权权值进行优化。
S300、将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。
基于上述的方法,本发明还提供一种面向大数据的代谢组特征数据分析系统,其中,所述系统如图2所示,其包括:
数据分割模块100,用于接收输入的代谢组特征数据,将其分割为多个数据块,并将该多个数据块映射送入映射规约框架中的各个运算节点中。
启发式加权模块200,用于利用计算智能方法同时对经数据分割模块分割后的多个数据块上的加权权值进行优化。
权值融合模块300,用于将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。
本发明的面向大数据的代谢组特征数据分析系统的工作原理如图3所示:
S1、代谢组特征数据输入。
S2、数据分割模块分割数据。输入到数据分割模块后,由其对数据进行分割形成数据块B1、数据块B2、…、数据块BM。将多个数据块映射送入映射规约框架中的各个运算节点,即送入启发式加权模块。
S3、启发式加权模块优化加权权值。将经各启发式加权模块优化的数据块加权权值送入权值融合模块。
S4、权值融合模块对各优化后加权权值进行规约。
S5、迭代是否完成,若否,则返回到步骤S2、若是,则执行步骤S6。
S6、输出加权矢量与分类/回归预测准确率。
较佳实施例中,所述步骤S100的数据分割过程如图4所示,其具体步骤为:
⑴.初始化迭代计数器k=0。
⑵.读取初始化迭代计数器k并对所读数值进行判断,当k=0时,构造D维加权矢量W0,其值初始化为[0,1]范围内的随机值:W0=[w1,w2,…,wD],wd=rand(0,1)。
⑶.当k>0时,将上一次迭代的输出权值作为本次加权矢量的初始值,即Wk=Wk-1
⑷.构造包含M个空集的数据块集以及包含所有索引值的索引矢量D=[1,2,3,…,D],并初始化数据块计数器m=0。
⑸.构造子索引矢量子加权矢量以及子特征矢量集其中任意子特征矢量有并初始化块内计数器l=0。
⑹.从索引矢量D中随机选择一索引值d加入子索引矢量Im中,同时将索引值d从D中移除。
⑺.将加权矢量Wk在第d维上的权值wd加入子加权矢量Wk,m,轮流取得代谢组特征数据集中每个特征矢量Fn,将其在第d维上的特征信号值fd加入的第n个子特征矢量Fm,n
⑻.更新块内计数器l=l+1,并判断l是否小于L,若是,则跳转至步骤⑷,若否,则执行步骤⑼。
⑼.添加当前数据块为并更新数据块计数器m=m+1。并判断m是否小于M,若是,则跳转至步骤⑶,若否,则执行步骤⑽。
⑽.将分割后的数据块集映射送入映射规约框架中的各个运算节点。常用映射规约框架包括Hadoop及Nokia Disco等。
进一步地,所述步骤S200对数据块加权权值优化过程如图5所示,其具体为:
⑴.对于第m个并行运算的启发式加权模块,其输入数据块为
⑵.构造计算智能方法的进化种群ps,其中每个寻优个体的候选解为L维矢量Xi,其中i=1,2,…,|ps|,该Xi值初始化为Xi=Wk,m
⑶.设置计算智能方法最大迭代次数为G,初始化迭代计数器g=0。
⑷.计算进化种群ps中每个寻优个体的适应度函数值。
⑸.根据各寻优个体的适应度函数值,使用计算智能方法优化进化种群ps。常用算法包括差分进化(Differential Evolution,DE)、粒子群优化(Particle Swarm Optimization,PSO)以及文化基因算法(Memetic Algorithm,MA)等。
⑹.更新迭代计数器g=g+1,并判断g是否小于G,若是,则跳转至步骤⑷,若否,则执行步骤⑺。
⑺.优化完成后,将种群中最优个体的候选解Xbest作为优化取得的最佳子加权矢量Wk,m,即
W k , m = X best = arg min X i &Element; ps f ( X i ) .
⑻.将子加权矢量Wk,m与子索引矢量Im构成键值对Pm=<Im:Wk,m>,作为映射规约框架中映射过程的输出。
较佳实施例中,所述步骤⑷还进一步包括:
a)、对于输入的第i个寻优个体,将其候选解矢量Xi作为子加权矢量Wm
b)、将Wm中的各子特征矢量Fm,n相乘以进行加权,当Wm中任一权值wl小于预设阈值δ,则删除此维度上的对应代谢特征信号fl,实现降维,最终形成加权子特征矢量F* m,n
F m , n * = F m , n &CircleTimes; W m = { f l &times; w l | f l &Element; F m , n , w l &Element; W m , w l > &delta; }
c)、将加权后的子特征矢量集合用于训练机器学习分类/回归算法,获得分类/回归算法的预测准确率。在代谢组特征数据的加权分析中,一般使用基于核方法(Kernel Methods)的支持向量机与极限学习机(Extreme Learning Machine,ELM)等算法。
d)、将分类/回归算法的预测准确率作为当前个体Xi的适应度函数值f(Xi)。对于分类算法,准确率以分类错误率(Classification Error Rate)表示;对于回归算法,则以均方跟误差(Root Mean Square Error,RMSE)表示。
较佳实施例中,所述步骤S300对经优化的加权权值进行规约处理过程如图6所示,其具体为:
⑴.收集输出的所有M个键值对,构成键值对集合并对其进行规约处理。
⑵.构造全零值的D维加权矢量Wk=[0,0,…,0]。初始化数据块计数器m=0。
⑶.取得键值对集合中的第m个键值对Pm=<Im:Wk,m>,初始化块内计数器l=0。
⑷.将子加权矢量Wk,m中第l维上的权值,添加至加权矢量Wk的第Im[l]维上,即Wk={wd=Wk,m[l]|d=Im[l]},l=1,2,…,L。
⑸.更新块内计数器l=l+1,判断l是否小于L,若是,则跳转至步骤⑷,若否,则执行步骤⑹。
⑹.更新数据块计数器m=m+1,判断m是否小于M,若是,则跳转至步骤⑶,若否,则执行步骤⑺。
⑺.更新迭代计数器k=k+1,判断k是否小于K,若是,则跳转至步骤S100的细分步骤⑵,若否,则执行步骤⑻。
⑻.利用最终得到的加权矢量WK对输入代谢组特征数据集进行加权。
另外,利用最终得到的加权矢量WK对输入代谢组特征数据集进行加权。而后将其用于训练机器学习算法,获得整体的分类/回归预测准确率,其过程如步骤S200的细分步骤(4)的b)-d)步所示,最后将加权矢量WK与分类/回归预测准确率作为结果输出。
本发明的系统相较于现有技术,其优势为:
第一,本系统是针对代谢组特征大数据的特点,基于映射规约框架的并行加权分析系统。一方面,数据分块处理降低了加权分析难度,有效提升了预测准确性。另一方面,并行化结构意味着本系统可部署至多个计算节点(如多台计算机)同时处理,可显著降低整体运算时间。此外,映射规约框架可对各运算节点进行调度、调节与均衡,保证系统的效率与稳定性。
第二,计算智能算法可为有效地解决复杂的大规模优化问题。通过将其引入各启发式加权模块,用于优化子加权矢量,可获得更佳的分析结果。实验数据表明,基于计算智能的权值设计方法,其预测准确性优于其它现有特征加权、特征选择算法。可对目标生理状态进行更为有效的预估,从而更好地指导后续生物、医学应用。
第三,优化获得的加权矢量中各权值数值,具体描述了对应代谢物信号及其所代表的代谢物质,对所预测目标生理状态的相关程度。这一信息对后续相关研究具有重要意义,可帮助厘清生物体代谢过程的背后机理。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种面向大数据的代谢组特征数据分析方法,其特征在于,所述方法包括以下步骤:
A、接收输入的代谢组特征数据,将其分割为多个数据块,并将该多个数据块映射送入映射规约框架中的各个运算节点中;
B、利用计算智能方法同时对多个数据块上的加权权值进行优化;
C、将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。
2.根据权利要求1所述的面向大数据的代谢组特征数据分析方法,其特征在于,所述代谢组特征数据表示为代谢组特征数据集 其中Fn=[f1,f2,…,fD]为第n个特征矢量,N为数据集大小,D为特征矢量总维数;所述多个数据块的数量为M,且每个数据块包含L=D/M个元素,设定系统总迭代次数为K次。
3.根据权利要求2所述的面向大数据的代谢组特征数据分析方法,其特征在于,所述步骤A具体为:
A1、读取初始化迭代计数器k并对所读数值进行判断,当k=0时,构造D维加权矢量W0,其值初始化为[0,1]范围内的随机值,当k>0时,将上一次迭代的输出权值作为本次加权矢量的初始值,即Wk=Wk-1
A2、构造包含M个空集的数据块集以及包含所有索引值的索引矢量D=[1,2,3,…,D],并初始化数据块计数器m=0;
A3、构造子索引矢量子加权矢量以及子特征矢量集其中任意子特征矢量有并初始化块内计数器l=0;
A4、从索引矢量D中随机选择一索引值d加入子索引矢量Im中,同时将索引值d从D中移除,将加权矢量Wk在第d维上的权值wd加入子加权矢量Wk,m,轮流取得代谢组特征数据集中每个特征矢量Fn,将其在第d维上的特征信号值fd加入的第n个子特征矢量Fm,n
A5、更新块内计数器l=l+1,并判断l是否小于L,若是,则跳转至步骤A2,若否,则执行步骤A6;
A6、添加当前数据块为并更新数据块计数器m=m+1。并判断m是否小于M,若是,则跳转至步骤A1,若否,则执行步骤A7;
A7、将分割后的数据块集映射送入映射规约框架中的各个运算节点。
4.根据权利要求3所述的面向大数据的代谢组特征数据分析方法,其特征在于,所述步骤A1之前还包括:初始化迭代计数器k=0。
5.根据权利要求4所述的面向大数据的代谢组特征数据分析方法,其特征在于,所述步骤B具体为:
B1、针对数据块构造计算智能方法的进化种群ps,其中每个寻优个体的候选解为L维矢量Xi,其中i=1,2,…,|ps|,该Xi值初始化为Xi=Wk,m
B2、设置计算智能方法最大迭代次数为G,初始化迭代计数器g=0;
B3、计算进化种群ps中每个寻优个体的适应度函数值,并根据各寻优个体的适应度函数值,使用计算智能方法优化进化种群ps;
B4、更新迭代计数器g=g+1,并判断g是否小于G,若是,则跳转至步骤B3,若否,则执行步骤B5;
B5、将种群中最优个体的候选解Xbest作为优化取得的最佳子加权矢量Wk,m,即
W k , m = X best = arg min X i &Element; ps f ( X i ) ;
B6、将子加权矢量Wk,m与子索引矢量Im构成键值对Pm=<Im:Wk,m>,作为映射规约框架中映射过程的输出。
6.根据权利要求5所述的面向大数据的代谢组特征数据分析方法,其特征在于,所述计算智能方法包括差分进化、粒子群优化或文化基因算法。
7.根据权利要求6所述的面向大数据的代谢组特征数据分析方法,其特征在于,所述步骤B3中计算进化种群ps中每个寻优个体的适应度函数值具体为:
B31、对于输入的第i个寻优个体,将其候选解矢量Xi作为子加权矢量Wm
B32、将Wm中的各子特征矢量Fm,n相乘以进行加权,当Wm中任一权值wl小于预设阈值δ,则删除此维度上的对应代谢特征信号fl,实现降维,最终形成加权子特征矢量F* m,n
B33、将加权后的子特征矢量集合用于训练机器学习分类/回归算法,获得分类/回归算法的预测准确率;
B34、将分类/回归算法的预测准确率作为当前个体Xi的适应度函数值f(Xi)。
8.根据权利要求7所述的面向大数据的代谢组特征数据分析方法,其特征在于,所述步骤C具体为:
C1、收集输出的所有M个键值对,构成键值对集合并对其进行规约处理;
C2、构造全零值的D维加权矢量Wk=[0,0,…,0]。初始化数据块计数器m=0;
C3、取得键值对集合中的第m个键值对Pm=<Im:Wk,m>,初始化块内计数器l=0;
C4、将子加权矢量Wk,m中第l维上的权值,添加至加权矢量Wk的第Im[l]维上,即Wk={wd=Wk,m[l]|d=Im[l]},l=1,2,…,L;
C5、更新块内计数器l=l+1,判断l是否小于L,若是,则跳转至步骤C4,若否,则执行步骤C6;
C6、更新数据块计数器m=m+1,判断m是否小于M,若是,则跳转至步骤C3,若否,则执行步骤C7;
C7、更新迭代计数器k=k+1,判断k是否小于K,若是,则跳转至步骤A,若否,则执行步骤C8;
C8、利用最终得到的加权矢量WK对输入代谢组特征数据集进行加权。
9.根据权利要求8所述的面向大数据的代谢组特征数据分析方法,其特征在于,利用最终得到的加权矢量WK对输入代谢组特征数据集进行加权,而后将其用于训练机器学习算法,获得整体的分类/回归预测准确率,将加权矢量WK与分类/回归预测准确率作为结果输出。
10.一种面向大数据的代谢组特征数据分析系统,其特征在于,所述系统包括:
数据分割模块,用于接收输入的代谢组特征数据,将其分割为多个数据块,并将该多个数据块映射送入映射规约框架中的各个运算节点中;
启发式加权模块,用于利用计算智能方法同时对经数据分割模块分割后的多个数据块上的加权权值进行优化;
权值融合模块,用于将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。
CN201410265541.7A 2014-06-13 2014-06-13 一种面向大数据的代谢组特征数据分析方法及其系统 Expired - Fee Related CN104063631B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410265541.7A CN104063631B (zh) 2014-06-13 2014-06-13 一种面向大数据的代谢组特征数据分析方法及其系统
PCT/CN2014/080283 WO2015188395A1 (zh) 2014-06-13 2014-06-19 一种面向大数据的代谢组特征数据分析方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410265541.7A CN104063631B (zh) 2014-06-13 2014-06-13 一种面向大数据的代谢组特征数据分析方法及其系统

Publications (2)

Publication Number Publication Date
CN104063631A true CN104063631A (zh) 2014-09-24
CN104063631B CN104063631B (zh) 2017-07-18

Family

ID=51551341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410265541.7A Expired - Fee Related CN104063631B (zh) 2014-06-13 2014-06-13 一种面向大数据的代谢组特征数据分析方法及其系统

Country Status (2)

Country Link
CN (1) CN104063631B (zh)
WO (1) WO2015188395A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407743A (zh) * 2016-08-31 2017-02-15 上海美吉生物医药科技有限公司 一种基于集群的高通量数据分析方法
CN107133448A (zh) * 2017-04-10 2017-09-05 温州医科大学 一种代谢组学数据融合优化处理方法
CN108181891A (zh) * 2017-12-13 2018-06-19 东北大学 基于智能核主元分析的工业大数据故障诊断方法
CN108476525A (zh) * 2015-12-24 2018-08-31 韦勒斯标准与技术协会公司 用于非授权带中的信道访问的方法、装置、和系统
CN110739076A (zh) * 2019-10-29 2020-01-31 上海华东电信研究院 一种医疗人工智能公共训练平台
CN112202910A (zh) * 2020-10-10 2021-01-08 上海威固信息技术股份有限公司 一种计算机分布式存储系统

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523031B (zh) * 2018-11-16 2022-12-13 河南智慧云大数据有限公司 一种用于深度分析的大数据智能机器学习系统
CN110046770B (zh) * 2019-04-23 2021-04-23 中国科学技术大学 粮食霉变预测方法及装置
CN111611293B (zh) * 2020-04-24 2023-09-29 太原太工天宇教育科技有限公司 一种基于特征加权与MapReduce的离群数据挖掘方法
CN114172770B (zh) * 2021-11-26 2023-05-02 哈尔滨工程大学 量子根树机制演化极限学习机的调制信号识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009067655A2 (en) * 2007-11-21 2009-05-28 University Of Florida Research Foundation, Inc. Methods of feature selection through local learning; breast and prostate cancer prognostic markers
CN101814082B (zh) * 2010-01-20 2012-05-23 中国人民解放军总参谋部第六十三研究所 一种基于蚁群优化的相似重复记录检测中自动特征加权与选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李志龙 等: "基于 GPU 的文本特征选择与特征加权", 《工业控制计算机》 *
李景熹 等: "基于特征加权支持向量机的武器系统效能评定方法", 《舰 船 科 学 技 术》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108476525A (zh) * 2015-12-24 2018-08-31 韦勒斯标准与技术协会公司 用于非授权带中的信道访问的方法、装置、和系统
US11160110B2 (en) 2015-12-24 2021-10-26 Beijing Xiaomi Mobile Software Co., Ltd. Method, apparatus, and system for channel access in unlicensed band
CN108476525B (zh) * 2015-12-24 2022-04-26 北京小米移动软件有限公司 用于非授权带中的信道访问的方法、装置、和系统
CN106407743A (zh) * 2016-08-31 2017-02-15 上海美吉生物医药科技有限公司 一种基于集群的高通量数据分析方法
CN106407743B (zh) * 2016-08-31 2019-03-05 上海美吉生物医药科技有限公司 一种基于集群的高通量数据分析方法
CN107133448A (zh) * 2017-04-10 2017-09-05 温州医科大学 一种代谢组学数据融合优化处理方法
CN107133448B (zh) * 2017-04-10 2020-05-01 温州医科大学 一种代谢组学数据融合优化处理方法
CN108181891A (zh) * 2017-12-13 2018-06-19 东北大学 基于智能核主元分析的工业大数据故障诊断方法
CN108181891B (zh) * 2017-12-13 2020-05-05 东北大学 基于智能核主元分析的工业大数据故障诊断方法
CN110739076A (zh) * 2019-10-29 2020-01-31 上海华东电信研究院 一种医疗人工智能公共训练平台
CN112202910A (zh) * 2020-10-10 2021-01-08 上海威固信息技术股份有限公司 一种计算机分布式存储系统
CN112202910B (zh) * 2020-10-10 2021-10-08 上海威固信息技术股份有限公司 一种计算机分布式存储系统

Also Published As

Publication number Publication date
WO2015188395A1 (zh) 2015-12-17
CN104063631B (zh) 2017-07-18

Similar Documents

Publication Publication Date Title
CN104063631A (zh) 一种面向大数据的代谢组特征数据分析方法及其系统
Xu et al. Improved protein structure prediction by deep learning irrespective of co-evolution information
Zeng et al. GraphACT: Accelerating GCN training on CPU-FPGA heterogeneous platforms
US11256698B2 (en) Automated provisioning for database performance
Zhou et al. A survey on evolutionary construction of deep neural networks
CN106202431B (zh) 一种基于机器学习的Hadoop参数自动调优方法及系统
Zeng et al. The biglasso package: A memory-and computation-efficient solver for lasso model fitting with big data in r
Wang et al. Benchmarking the performance and energy efficiency of AI accelerators for AI training
Narayanan et al. An FPGA implementation of decision tree classification
Tripathi et al. Dynamic frequency based parallel k-bat algorithm for massive data clustering (DFBPKBA)
CN102591940B (zh) 一种基于Map/Reduce的快速支持向量数据描述方法及系统
CN107908536B (zh) Cpu-gpu异构环境中对gpu应用的性能评估方法及系统
CN102736896B (zh) 运行前近似计算
Li et al. Classification and disease probability prediction via machine learning programming based on multi-GPU cluster MapReduce system
Liu High performance latent dirichlet allocation for text mining
Zhu et al. Hidden Markov induced Dynamic Bayesian Network for recovering time evolving gene regulatory networks
Shu et al. Bootstrapping in-situ workflow auto-tuning via combining performance models of component applications
Wang et al. A novel two-step job runtime estimation method based on input parameters in HPC system
CN115982480A (zh) 基于协同注意力网络和对比学习的序列推荐方法及系统
WO2017054659A1 (en) An approach for end-to-end power efficiency modeling for data centers
Soto et al. JACC-FPGA: A hardware accelerator for Jaccard similarity estimation using FPGAs in the cloud
Lu et al. Pa&da: Jointly sampling path and data for consistent nas
CA3119351A1 (en) Extending finite rank deep kernel learning to forecasting over long time horizons
CN109299725B (zh) 一种张量链并行实现高阶主特征值分解的预测系统和装置
Subramanian et al. Load-Aware VM Migration Using Hypergraph Based CDB-LSTM

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170718

Termination date: 20180613