CN104063631A

CN104063631A - 一种面向大数据的代谢组特征数据分析方法及其系统

Info

Publication number: CN104063631A
Application number: CN201410265541.7A
Authority: CN
Inventors: 周家锐; 华韵之; 纪震; 朱泽轩; 曾启明
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-06-13
Filing date: 2014-06-13
Publication date: 2014-09-24
Anticipated expiration: 2034-06-13
Also published as: WO2015188395A1; CN104063631B

Abstract

本发明公开一种面向大数据的代谢组特征数据分析方法及其系统，所述方法为：A、接收输入的代谢组特征数据，将其分割为多个数据块，并将该多个数据块映射送入映射规约框架中的各个运算节点中；B、利用计算智能方法同时对多个数据块上的加权权值进行优化；C、将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。本发明系统的数据分块处理机制降低了加权分析难度，有效提升了预测准确性。且并行化结构使系统可部署至多个计算节点，显著减少运算时间的同时能够保证系统的效率与稳定性。本系统应用的计算智能算法可有效地解决复杂的大规模优化问题。其预测准确性优于现有算法，从而实现可对目标生理状态进行更为有效的预估。

Description

一种面向大数据的代谢组特征数据分析方法及其系统

技术领域

本发明涉及生物信息学领域，尤其涉及一种面向大数据的代谢组特征数据分析方法及其系统。

背景技术

代谢物是生物体内完成代谢过程的小分子有机化合物总称，包含了丰富的生理状态信息。代谢组学是代谢物的整体系统性研究方法，可有效揭示代谢现象背后的生化机理。与传统研究方法相比，代谢组学被认为可更全面地展示生命体的真实状态。因此获得了越来越多的重视，被广泛应用于诸多科研与实用领域中。

代谢物经采集、检测获得的信号数据，称为代谢组特征数据，是代谢组学的研究基本对象。通常使用机器学习方法对其进行分析，以挖掘其中的生理状态信息。现有技术一般使用基于特征选择(Feature Selection)的机器学习算法对代谢组特征数据进行分析，其主要包含两个部分：(1).使用特征选择对输入数据进行降维运算，以厘清其中重要的特征信号以及其所对应的代谢物质，并消除无关噪声，从而提升预测算法性能。目前常用的特征选择方法包括主成份分析(Principal Component Analysis,PCA)、线性判别分析(Linear Discriminant Analysis,LDA)以及最小冗余最大关联(Minimum Redundancy Maximum Relevance,mRMR)选择等。(2).使用分类/回归算法对降维后的数据进行预测学习，估计输入特征所可能产生的生理结果，以指导后续医疗、科研等相关工作。目前常用的分类/回归算法包括k-近邻算法(k-Nearest Neighbor,k-NN)、线性回归(Linear Regression)、逻辑回归(Logistic Regression)以及支持向量机(Support Vector Machine,SVM)等。但由于代谢组特征数据一般都具有规模庞大、特征维度高、包含大量噪声、以及特征信号与目标状态间呈非线性关系等特点。上述的传统方法往往难以在合理运算时间内获得令人满意的学习结果。

特征加权分析(Feature Weighting)是特征选择当权值可取得[0,1]范围内任意实数值时的泛化形式。与特征选择相比，特征加权更适合被用于代谢组特征数据的分析：首先，现有研究表明，特征加权可获得比特征选择更佳的预测效果提升能力，所形成的系统可对目标生理状态进行更为精确的估计。其次，加权权值为连续数值，可更为准确地描述所对应代谢物信号与目标状态间的具体关联，这一信息对后续相关研究具有重要价值。但代谢组特征数据规模庞大、维度较高，其特征加权属于复杂的大规模多模优化问题，难以使用传统数学方法进行处理。因此严重限制了其实际运用。

现有针对代谢组特征数据的机器学习算法，其主要缺陷在于：

其一，特征选择中的权值仅能取得{0,1}两个离散值，而无法对代谢物信号的重要性差异进行更为精确的描述。例如，若两种代谢物质对目标生理状态都具有影响，但其程度有所差别，则其所对应信号的权值也应各不相同。影响较大的代谢物信号权值也应较大，反之亦然。但特征选择仅能赋予0或1两种权值，难以描述此类差异性。导致重要的生物学信息丢失。

其二，特征加权算法中权值设定难度较大，目前缺少行之有效的解决方法。特别是对于大数据上的特征加权，现有算法都难以进行有效处理，而仅能近求解。从而严重影响了分析性能。

其三，现有机器学习技术主要针对小规模数据进行设计，并未考虑代谢组特征的大数据情况。这往往造成面对庞大数据时，分类/回归算法性能显著下降，运算时间指数增加。另外现有算法的运算复杂度较高，且架构上难以并行化处理，导致无法在合理时间内对代谢组大数据进行有效分析。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种面向大数据的代谢组特征数据分析方法及其系统，旨在解决目前数据分析方法无法对代谢组大数据进行快速有效分析的问题。

本发明的技术方案如下：

一种面向大数据的代谢组特征数据分析方法，其中，所述方法包括以下步骤：

A、接收输入的代谢组特征数据，将其分割为多个数据块，并将该多个数据块映射送入映射规约(MapReduce)框架中的各个运算节点中；

B、利用计算智能方法同时对多个数据块上的加权权值进行优化；

C、将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。

所述的面向大数据的代谢组特征数据分析方法，其中，所述代谢组特征数据表示为代谢组特征数据集其中F_n＝[f₁,f₂,…,f_D]为第n个特征矢量，N为数据集大小，D为特征矢量总维数；所述多个数据块的数量为M，且每个数据块包含L＝D/M个元素，设定系统总迭代次数为K次。

所述的面向大数据的代谢组特征数据分析方法，其中，所述步骤A具体为：

A1、读取初始化迭代计数器k并对所读数值进行判断，当k＝0时，构造D维加权矢量W₀，其值初始化为[0,1]范围内的随机值，当k>0时，将上一次迭代的输出权值作为本次加权矢量的初始值，即W_k＝W_k-1。

A2、构造包含M个空集的数据块集以及包含所有索引值的索引矢量D＝[1,2,3,…,D]，并初始化数据块计数器m＝0。

A3、构造子索引矢量子加权矢量以及子特征矢量集其中任意子特征矢量有并初始化块内计数器l＝0。

A4、从索引矢量D中随机选择一索引值d加入子索引矢量I_m中，同时将索引值d从D中移除，将加权矢量W_k在第d维上的权值w_d加入子加权矢量W_k,m，轮流取得代谢组特征数据集中每个特征矢量F_n，将其在第d维上的特征信号值f_d加入的第n个子特征矢量F_m,n。

A5、更新块内计数器l＝l+1，并判断l是否小于L，若是，则跳转至步骤A2，若否，则执行步骤A6。

A6、添加当前数据块为并更新数据块计数器m＝m+1。并判断m是否小于M，若是，则跳转至步骤A1，若否，则执行步骤A7。

A7、将分割后的数据块集映射送入映射规约框架中的各个运算节点。

所述的面向大数据的代谢组特征数据分析方法，其中，所述步骤A1之前还包括：初始化迭代计数器k＝0，

所述的面向大数据的代谢组特征数据分析方法，其中，所述步骤B具体为：

B1、针对数据块构造计算智能方法的进化种群ps，其中每个寻优个体的候选解为L维矢量X_i,其中i＝1,2,…,|ps|，该X_i值初始化为X_i＝W_k,m；

B2、设置计算智能方法最大迭代次数为G，初始化迭代计数器g＝0；

B3、计算进化种群ps中每个寻优个体的适应度函数值，并根据各寻优个体的适应度函数值，使用计算智能方法优化进化种群ps；

B4、更新迭代计数器g＝g+1，并判断g是否小于G，若是，则跳转至步骤B3，若否，则执行步骤B5；

B5、将种群中最优个体的候选解X_best作为优化取得的最佳子加权矢量W_k,m，即

W_{k, m} = X_{best} = \underset{X_{i} &Element; ps}{\arg \min} f (X_{i});

B6、将子加权矢量W_k,m与子索引矢量I_m构成键值对P_m＝<I_m:W_k,m>，作为映射规约框架中映射过程的输出。

所述的面向大数据的代谢组特征数据分析方法，其中，所述计算智能方法包括差分进化、粒子群优化或文化基因算法。

所述的面向大数据的代谢组特征数据分析方法，其中，所述步骤B3中计算进化种群ps中每个寻优个体的适应度函数值具体为：

B31、对于输入的第i个寻优个体，将其候选解矢量X_i作为子加权矢量W_m；

B32、将W_m与中的各子特征矢量F_m,n相乘以进行加权，当W_m中任一权值w_l小于预设阈值δ，则删除此维度上的对应代谢特征信号f_l，实现降维，最终形成加权子特征矢量F^* _m,n：

F_{m, n}^{*} = F_{m, n} &CircleTimes; W_{m} = {f_{l} \times w_{l} | f_{l} &Element; F_{m, n}, w_{l} &Element; W_{m}, w_{l} > δ};

B33、将加权后的子特征矢量集合用于训练机器学习分类/回归算法，获得分类/回归算法的预测准确率；

B34、将分类/回归算法的预测准确率作为当前个体X_i的适应度函数值f(X_i)。

所述的面向大数据的代谢组特征数据分析方法，其中，所述步骤C具体为：

C1、收集输出的所有M个键值对，构成键值对集合并对其进行规约处理；

C2、构造全零值的D维加权矢量W_k＝[0,0,…,0]。初始化数据块计数器m＝0；

C3、取得键值对集合中的第m个键值对P_m＝<I_m:W_k,m>，初始化块内计数器l＝0；

C4、将子加权矢量W_k,m中第l维上的权值，添加至加权矢量W_k的第I_m[l]维上，即W_k＝{w_d＝W_k,m[l]|d＝I_m[l]},l＝1,2,…,L；

C5、更新块内计数器l＝l+1，判断l是否小于L，若是，则跳转至步骤C4，若否，则执行步骤C6；

C6、更新数据块计数器m＝m+1，判断m是否小于M，若是，则跳转至步骤C3，若否，则执行步骤C7；

C7、更新迭代计数器k＝k+1，判断k是否小于K，若是，则跳转至步骤A，若否，则执行步骤C8；

C8、利用最终得到的加权矢量W_K对输入代谢组特征数据集进行加权。

所述的面向大数据的代谢组特征数据分析方法，其中，利用最终得到的加权矢量W_K对输入代谢组特征数据集进行加权，而后将其用于训练机器学习算法，获得整体的分类/回归预测准确率，将加权矢量W_K与分类/回归预测准确率作为结果输出。

一种面向大数据的代谢组特征数据分析系统，其中，所述系统包括：

数据分割模块，用于接收输入的代谢组特征数据，将其分割为多个数据块，并将该多个数据块映射送入映射规约框架中的各个运算节点中；

启发式加权模块，用于利用计算智能方法同时对经数据分割模块分割后的多个数据块上的加权权值进行优化；

权值融合模块，用于将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。

有益效果：本发明提供一种面向大数据的代谢组特征数据分析方法及其系统，该系统是针对代谢组特征大数据的特点所设计的基于MapReduce框架的并行加权分析系统。一方面，系统的数据分块处理机制降低了加权分析难度，有效提升了预测准确性。另一方面，系统的并行化结构意味着系统可部署至多个计算节点(如多台计算机)同时处理，可显著降低整体运算时间。此外，MapReduce框架可对各运算节点进行调度、调节与均衡，保证系统的效率与稳定性。另外本系统所应用的计算智能算法可有效地解决复杂的大规模优化问题。通过将其引入各启发式加权模块可获得更佳的分析结果。其预测准确性优于其它现有特征加权、特征选择算法，可对目标生理状态进行更为有效的预估。

附图说明

图1为本发明具体实施例中面向大数据的代谢组特征数据分析方法流程图。

图2为本发明具体实施例中面向大数据的代谢组特征数据分析系统的原理框图。

图3为本发明的面向大数据的代谢组特征数据分析系统的工作原理图。

图4为图1中步骤S100进行数据分割过程示意图。

图5为图1中步骤S200对数据块加权权值优化过程示意图。

图6为图1中步骤S300对优化后加权权值进行规约处理过程示意图。

具体实施方式

本发明提供一种面向大数据的代谢组特征数据分析方法及其系统，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示的一种面向大数据的代谢组特征数据分析方法，其中，所述方法包括以下步骤：

S100、接收输入的代谢组特征数据，将其分割为多个数据块，并将该多个数据块映射送入映射规约框架中的各个运算节点中。

其中，设若输入的代谢组特征数据为代谢组特征数据集其中F_n＝[f₁,f₂,…,f_D]为第n个特征矢量，N为数据集大小，D为特征矢量总维数；所述多个数据块的数量为M，且每个数据块包含L＝D/M个元素，设定系统总迭代次数为K次。

S200、利用计算智能方法同时对多个数据块上的加权权值进行优化。

S300、将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。

基于上述的方法，本发明还提供一种面向大数据的代谢组特征数据分析系统，其中，所述系统如图2所示，其包括：

数据分割模块100，用于接收输入的代谢组特征数据，将其分割为多个数据块，并将该多个数据块映射送入映射规约框架中的各个运算节点中。

启发式加权模块200，用于利用计算智能方法同时对经数据分割模块分割后的多个数据块上的加权权值进行优化。

权值融合模块300，用于将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。

本发明的面向大数据的代谢组特征数据分析系统的工作原理如图3所示：

S1、代谢组特征数据输入。

S2、数据分割模块分割数据。输入到数据分割模块后，由其对数据进行分割形成数据块B₁、数据块B₂、…、数据块B_M。将多个数据块映射送入映射规约框架中的各个运算节点，即送入启发式加权模块。

S3、启发式加权模块优化加权权值。将经各启发式加权模块优化的数据块加权权值送入权值融合模块。

S4、权值融合模块对各优化后加权权值进行规约。

S5、迭代是否完成，若否，则返回到步骤S2、若是，则执行步骤S6。

S6、输出加权矢量与分类/回归预测准确率。

较佳实施例中，所述步骤S100的数据分割过程如图4所示，其具体步骤为：

⑴.初始化迭代计数器k＝0。

⑵.读取初始化迭代计数器k并对所读数值进行判断，当k＝0时，构造D维加权矢量W₀，其值初始化为[0,1]范围内的随机值：W₀＝[w₁,w₂,…,w_D],w_d＝rand(0,1)。

⑶.当k>0时，将上一次迭代的输出权值作为本次加权矢量的初始值，即W_k＝W_k-1。

⑷.构造包含M个空集的数据块集以及包含所有索引值的索引矢量D＝[1,2,3,…,D]，并初始化数据块计数器m＝0。

⑸.构造子索引矢量子加权矢量以及子特征矢量集其中任意子特征矢量有并初始化块内计数器l＝0。

⑹.从索引矢量D中随机选择一索引值d加入子索引矢量I_m中，同时将索引值d从D中移除。

⑺.将加权矢量W_k在第d维上的权值w_d加入子加权矢量W_k,m，轮流取得代谢组特征数据集中每个特征矢量F_n，将其在第d维上的特征信号值f_d加入的第n个子特征矢量F_m,n。

⑻.更新块内计数器l＝l+1，并判断l是否小于L，若是，则跳转至步骤⑷，若否，则执行步骤⑼。

⑼.添加当前数据块为并更新数据块计数器m＝m+1。并判断m是否小于M，若是，则跳转至步骤⑶，若否，则执行步骤⑽。

⑽.将分割后的数据块集映射送入映射规约框架中的各个运算节点。常用映射规约框架包括Hadoop及Nokia Disco等。

进一步地，所述步骤S200对数据块加权权值优化过程如图5所示，其具体为：

⑴.对于第m个并行运算的启发式加权模块，其输入数据块为

⑵.构造计算智能方法的进化种群ps，其中每个寻优个体的候选解为L维矢量X_i,其中i＝1,2,…,|ps|，该X_i值初始化为X_i＝W_k,m。

⑶.设置计算智能方法最大迭代次数为G，初始化迭代计数器g＝0。

⑷.计算进化种群ps中每个寻优个体的适应度函数值。

⑸.根据各寻优个体的适应度函数值，使用计算智能方法优化进化种群ps。常用算法包括差分进化(Differential Evolution,DE)、粒子群优化(Particle Swarm Optimization,PSO)以及文化基因算法(Memetic Algorithm,MA)等。

⑹.更新迭代计数器g＝g+1，并判断g是否小于G，若是，则跳转至步骤⑷，若否，则执行步骤⑺。

⑺.优化完成后，将种群中最优个体的候选解X_best作为优化取得的最佳子加权矢量W_k,m，即

W_{k, m} = X_{best} = \underset{X_{i} &Element; ps}{\arg \min} f (X_{i}) .

⑻.将子加权矢量W_k,m与子索引矢量I_m构成键值对P_m＝<I_m:W_k,m>，作为映射规约框架中映射过程的输出。

较佳实施例中，所述步骤⑷还进一步包括：

a)、对于输入的第i个寻优个体，将其候选解矢量X_i作为子加权矢量W_m。

b)、将W_m与中的各子特征矢量F_m,n相乘以进行加权，当W_m中任一权值w_l小于预设阈值δ，则删除此维度上的对应代谢特征信号f_l，实现降维，最终形成加权子特征矢量F^* _m,n。

F_{m, n}^{*} = F_{m, n} &CircleTimes; W_{m} = {f_{l} \times w_{l} | f_{l} &Element; F_{m, n}, w_{l} &Element; W_{m}, w_{l} > δ}

c)、将加权后的子特征矢量集合用于训练机器学习分类/回归算法，获得分类/回归算法的预测准确率。在代谢组特征数据的加权分析中，一般使用基于核方法(Kernel Methods)的支持向量机与极限学习机(Extreme Learning Machine,ELM)等算法。

d)、将分类/回归算法的预测准确率作为当前个体X_i的适应度函数值f(X_i)。对于分类算法，准确率以分类错误率(Classification Error Rate)表示；对于回归算法，则以均方跟误差(Root Mean Square Error,RMSE)表示。

较佳实施例中，所述步骤S300对经优化的加权权值进行规约处理过程如图6所示，其具体为：

⑴.收集输出的所有M个键值对，构成键值对集合并对其进行规约处理。

⑵.构造全零值的D维加权矢量W_k＝[0,0,…,0]。初始化数据块计数器m＝0。

⑶.取得键值对集合中的第m个键值对P_m＝<I_m:W_k,m>，初始化块内计数器l＝0。

⑷.将子加权矢量W_k,m中第l维上的权值，添加至加权矢量W_k的第I_m[l]维上，即W_k＝{w_d＝W_k,_m[l]|d＝I_m[l]},l＝1,2,…,L。

⑸.更新块内计数器l＝l+1，判断l是否小于L，若是，则跳转至步骤⑷，若否，则执行步骤⑹。

⑹.更新数据块计数器m＝m+1，判断m是否小于M，若是，则跳转至步骤⑶，若否，则执行步骤⑺。

⑺.更新迭代计数器k＝k+1，判断k是否小于K，若是，则跳转至步骤S100的细分步骤⑵，若否，则执行步骤⑻。

⑻.利用最终得到的加权矢量W_K对输入代谢组特征数据集进行加权。

另外，利用最终得到的加权矢量W_K对输入代谢组特征数据集进行加权。而后将其用于训练机器学习算法，获得整体的分类/回归预测准确率，其过程如步骤S200的细分步骤(4)的b)-d)步所示，最后将加权矢量W_K与分类/回归预测准确率作为结果输出。

本发明的系统相较于现有技术，其优势为：

第一，本系统是针对代谢组特征大数据的特点，基于映射规约框架的并行加权分析系统。一方面，数据分块处理降低了加权分析难度，有效提升了预测准确性。另一方面，并行化结构意味着本系统可部署至多个计算节点(如多台计算机)同时处理，可显著降低整体运算时间。此外，映射规约框架可对各运算节点进行调度、调节与均衡，保证系统的效率与稳定性。

第二，计算智能算法可为有效地解决复杂的大规模优化问题。通过将其引入各启发式加权模块，用于优化子加权矢量，可获得更佳的分析结果。实验数据表明，基于计算智能的权值设计方法，其预测准确性优于其它现有特征加权、特征选择算法。可对目标生理状态进行更为有效的预估，从而更好地指导后续生物、医学应用。

第三，优化获得的加权矢量中各权值数值，具体描述了对应代谢物信号及其所代表的代谢物质，对所预测目标生理状态的相关程度。这一信息对后续相关研究具有重要意义，可帮助厘清生物体代谢过程的背后机理。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种面向大数据的代谢组特征数据分析方法，其特征在于，所述方法包括以下步骤：

A、接收输入的代谢组特征数据，将其分割为多个数据块，并将该多个数据块映射送入映射规约框架中的各个运算节点中；

2.根据权利要求1所述的面向大数据的代谢组特征数据分析方法，其特征在于，所述代谢组特征数据表示为代谢组特征数据集其中F_n＝[f₁,f₂,…,f_D]为第n个特征矢量，N为数据集大小，D为特征矢量总维数；所述多个数据块的数量为M，且每个数据块包含L＝D/M个元素，设定系统总迭代次数为K次。

3.根据权利要求2所述的面向大数据的代谢组特征数据分析方法，其特征在于，所述步骤A具体为：

A1、读取初始化迭代计数器k并对所读数值进行判断，当k＝0时，构造D维加权矢量W₀，其值初始化为[0,1]范围内的随机值，当k>0时，将上一次迭代的输出权值作为本次加权矢量的初始值，即W_k＝W_k-1；

A2、构造包含M个空集的数据块集以及包含所有索引值的索引矢量D＝[1,2,3,…,D]，并初始化数据块计数器m＝0；

A3、构造子索引矢量子加权矢量以及子特征矢量集其中任意子特征矢量有并初始化块内计数器l＝0；

A4、从索引矢量D中随机选择一索引值d加入子索引矢量I_m中，同时将索引值d从D中移除，将加权矢量W_k在第d维上的权值w_d加入子加权矢量W_k,m，轮流取得代谢组特征数据集中每个特征矢量F_n，将其在第d维上的特征信号值f_d加入的第n个子特征矢量F_m,n；

A5、更新块内计数器l＝l+1，并判断l是否小于L，若是，则跳转至步骤A2，若否，则执行步骤A6；

A6、添加当前数据块为并更新数据块计数器m＝m+1。并判断m是否小于M，若是，则跳转至步骤A1，若否，则执行步骤A7；

4.根据权利要求3所述的面向大数据的代谢组特征数据分析方法，其特征在于，所述步骤A1之前还包括：初始化迭代计数器k＝0。

5.根据权利要求4所述的面向大数据的代谢组特征数据分析方法，其特征在于，所述步骤B具体为：

W_{k, m} = X_{best} = \underset{X_{i} &Element; ps}{\arg \min} f (X_{i});

6.根据权利要求5所述的面向大数据的代谢组特征数据分析方法，其特征在于，所述计算智能方法包括差分进化、粒子群优化或文化基因算法。

7.根据权利要求6所述的面向大数据的代谢组特征数据分析方法，其特征在于，所述步骤B3中计算进化种群ps中每个寻优个体的适应度函数值具体为：

B32、将W_m与中的各子特征矢量F_m,n相乘以进行加权，当W_m中任一权值w_l小于预设阈值δ，则删除此维度上的对应代谢特征信号f_l，实现降维，最终形成加权子特征矢量F^* _m,n；

8.根据权利要求7所述的面向大数据的代谢组特征数据分析方法，其特征在于，所述步骤C具体为：

9.根据权利要求8所述的面向大数据的代谢组特征数据分析方法，其特征在于，利用最终得到的加权矢量W_K对输入代谢组特征数据集进行加权，而后将其用于训练机器学习算法，获得整体的分类/回归预测准确率，将加权矢量W_K与分类/回归预测准确率作为结果输出。

10.一种面向大数据的代谢组特征数据分析系统，其特征在于，所述系统包括：