CN108920900A

CN108920900A - 基因表达谱数据的无监督极限学习机特征提取系统及方法

Info

Publication number: CN108920900A
Application number: CN201810643270.2A
Authority: CN
Inventors: 陈晓云; 廖梦真; 康叶媛; 张萌; 王彬福
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-11-30

Abstract

本发明涉及一种基因表达谱数据的无监督极限学习机特征提取系统及方法。该方法利用近邻表示来自适应学习近邻样本的相似性，将相似度学习与特征提取融合在一起，提出基于相似度学习进行特征提取的极限学习机。本发明可以自适应根据不同的样本数据选择合适的近邻矩阵学习最优的表示系数，进而提高模型对不同数据的执行效果，同时对高维数据的计算有效的降低时间复杂度。

Description

基因表达谱数据的无监督极限学习机特征提取系统及方法

技术领域

本发明涉及一种基因表达谱数据的无监督极限学习机特征提取系统及方法

背景技术

DNA微阵列技术为生物信息学的研究注入了新的活力，基于基因表达谱数据的生物信息学研究得到了广泛的认可。聚类方法是研究基因表达谱数据模式识别的一种重要手段，但是基因表达谱数据规模庞大且复杂，经典的统计学习算法和数据挖掘方法已经不能很好地满足基因表达谱数据的模式识别研究需要。基因表达数据的小样本、高位数、高冗余、样本不平衡和非线性等特点，使得从基因表达数据获取有用的信息成为研究的难点，基因表达数据的聚类问题研究常用策略是先通过特征提取或特征选择进行降维，接着对降维后的特征进行聚类。

目前已经提出了很多基因表达数据的特征提取方法，包括主成分分析、近邻保持嵌入、局部保持投影等。主成分分析算法想保持全局结构，前提假设是各主特征分布在正交方向上，但如果在非正交方向上存在几个方差较大的方向，该算法效果变得不理想；并且，若数据高阶相关，则此方法无法使用。近邻保持嵌入和局部保持投影方法都是基于流形正则化的思想，这些方法都是用高斯函数描述样本间的相似性，难以避免的出现高维空间中的“集中现象”，即样本点间的高斯相似性度量的类区分性随维数升高而减弱，并且这两种方法都对非线性变化敏感。

基于无监督极限学习机的特征提取方法的相关研究已取得一定的成果，该方法具有结构简单、学习速度快等优点，但仍存在与上述传统的特征提取方法中存在的问题：用高斯函数描述样本间的相似性，难以避免的出现高维空间中的“集中现象”，即样本的相似性度量的类区分性随维数升高而减弱。针对上述问题，我们提出了一种基于自适应相似度学习的基因表达谱数据的特征提取与聚类分析系统，采用样本数据来学习相似度矩阵，而不是通过特定的距离公式直接计算，更好地刻画了样本间相似性，并且提高了基因表达谱数据聚类精确度。

发明内容

本发明的目的在于提供一种基因表达谱数据的无监督极限学习机特征提取系统及方法

为实现上述目的，本发明的技术方案是：一种基因表达谱数据的无监督极限学习机特征提取系统，包括数据转换模块、非线性变换模块、特征提取模块、数据可视化模块、聚类分析模块；

所述数据转换模块对原始高维基因表达谱数据进行规范化处理，而后传输给非线性变换模块；

所述非线性变换模块利用随机特征映射对数据进行非线性变换，而后传输给特征提取模块；

所述特征提取模块学习一个变换矩阵，该变换矩阵将高维基因表达谱数据投影到低维子空间；

所述数据可视化模块利用所述低维子空间中的数据进行一维和二维数据可视化；

所述聚类分析模块在低维子空间对基因表达谱数据进行识别归类。

在本发明一实施例中，所述数据转换模块采用二范数进行标准化处理，将原始高维基因表达谱数据转换到同一个量纲范围。

在本发明一实施例中，所述非线性变换模块计算隐藏层输出矩阵，其方法为：随机产生输入层与隐藏层的连接权值及隐藏层神经元阈值，选择S型函数作为激励函数，对每一个输入样本得到一个隐藏层输出向量。

在本发明一实施例中，所述特征提取模块学习变换矩阵的方法为：结合数据自适应相似度学习和流形学习思想构造目标函数，通过求解获得变换矩阵。

在本发明一实施例中，所述聚类分析模块，将投影到低维子空间的基因表达谱数据用k-means进行聚类，利用聚类准确率衡量特征提取的效果。

本发明还提供了一种基于上述所述系统的无监督极限学习机特征提取方法，包括如下步骤，

步骤S1、通过数据转换模块对原始高维基因表达谱数据进行规范化处理，该过程采用二范数对每个样本进行规范化处理，使得数据转换到同一个量纲范围；

步骤S2、通过非线性变换模块对经数据转换模块规范化处理后的数据进行非线性变换；

步骤S3、通过特征提取模块将经非线性变换模块变换后的数据投影到低维子空间；

步骤S4、通过数据可视化模块利用所述低维子空间中的数据进行一维和二维数据可视化；

步骤S5、通过聚类分析模块在低维特征空间对基因表达谱数据进行识别归类。

在本发明一实施例中，所述步骤S2的具体实现过程如下：

步骤S21、随机产生输入权向量w和隐节点偏差b；

步骤S22、选择S型函数作为激励函数

步骤S23、计算每一个输入样本数据的隐藏层输出矩阵H：

其中，h(x_i)＝(g(w₁,b₁,x_i),…,g(w_L,b_L,x_i))为隐藏层关于第i个m维样本x_i的输出向量，对数据进行非线性变换，期望得到的H矩阵与输出层具有线性关系；L为隐藏层节点个数，g(·)是S型函数，w_i(i＝1,2,...,n)，b_i(i＝1,2,...,n)分别是第i个隐节点的输入权和偏差。

在本发明一实施例中，所述步骤S3的具体实现过程如下：

步骤S31、基于自适应的样本近邻表示，自适应学习样本间相似性，模型如下：

其中，Z为表达系数矩阵，Z_ij表示样本x_i与x_j的相似程度；N_k(x_i)是样本x_i的k个近邻样本集合，如果Z_ij＝0；

步骤S32、利用流形正则思想，即投影后的数据在新空间中仍保持与原空间中相同的近邻关系，公式如下：

||H(x_i)β-H(x_j)β||²Z_ij (3)

其中，H(x_i)，H(x_j)分别是隐藏层关于第i个m维样本x_i(i＝1,2,...,n)的输出向量，β∈R^L×d是极限学习机输出层输出权重，若d<m，则Hβ可将数据投影到低维子空间；Z_ij表示原始样本x_i与x_j的相似程度；

步骤S33、结合公式(2)和(3)得到特征提取模型，通过交替迭代方向乘子法，求得输出权重β∈R^L×d，β即为投影矩阵，当d<m时，可以用H(X)β对原始高维基因表达谱数据X∈Rⁿ ^×m进行降维，得到d维的投影样本。

相较于现有技术，本发明具有以下有益效果：本发明弥补了传统特征提取方法中用高斯距离函数刻画样本间相似性的不足；本发明在基因表达谱数据研究应用上意义深远，可以自适应处理不同类型的高维基因表达数据，有更广的适用性；本发明弥补了高维数据采用高斯函数度量距离的不合理性以及不能处理非线性样本数据的不足；本发明在基因表达谱数据研究应用上意义深远，其聚类效果和运算效率有显著提升，为分析复杂的基因表达数据提供了一个更加精确有效的方法。

附图说明

图1为本发明实施例的系统模块示意图。

图2是本发明实施例的工作流程图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种基因表达谱数据的无监督极限学习机特征提取系统，包括数据转换模块、非线性变换模块、特征提取模块、数据可视化模块、聚类分析模块；

所述数据转换模块采用二范数进行标准化处理，将原始高维基因表达谱数据转换到同一个量纲范围。所述非线性变换模块计算隐藏层输出矩阵，其方法为：随机产生输入层与隐藏层的连接权值及隐藏层神经元阈值，选择S型函数作为激励函数，对每一个输入样本得到一个隐藏层输出向量。所述特征提取模块学习变换矩阵的方法为：结合数据自适应相似度学习和流形学习思想构造目标函数，通过求解获得变换矩阵。所述聚类分析模块，将投影到低维子空间的基因表达谱数据用k-means进行聚类，利用聚类准确率衡量特征提取的效果。

在本发明一实施例中，所述步骤S2的具体实现过程如下：

步骤S21、随机产生输入权向量w和隐节点偏差b；

步骤S22、选择S型函数作为激励函数

步骤S23、计算每一个输入样本数据的隐藏层输出矩阵H：

在本发明一实施例中，所述步骤S3的具体实现过程如下：

||H(x_i)β-H(x_j)β||²Z_ij (3)

以下为本发明的具体实现过程。

本发明的一种基于基因表达谱数据的无监督极限学习机特征提取和聚类方法，如图1所示，所述设有数据转换模块、非线性变换模块、特征提取模块、数据可视化模块、聚类分析模块；

步骤一所述数据转换模块对数据进行规范化处理，我们采用二范数对每个样本进行规范化处理，使得数据转换到同一个量纲范围。

步骤二所述非线性变换模块利用随机特征映射将数据变换为线性可分的，其过程如下：

1.随机产生输入权向量w_j和隐节点偏差b_j，其取值范围通常为[-1,1]。隐节点个数的选择直接影响非线性变换的质量，对于基因表达谱数据隐节点个数一般设置为1000。

2.选择隐节点激励函数，这里我们选择S型函数作为激励函数

3.计算经过特征映射后的隐藏层输出矩阵H：

这里的h(x_i)＝(g(w₁,b₁,x_i),…,g(w_L,b_L,x_i))为隐藏层关于第i个样本x_i的输出向量，期望得到的H矩阵与输出层具有线性关系。L为隐节点的个数，g(·)是S型函数，w_i(i＝1,2,...,n)，b_i(i＝1,2,...,n)分别是第i个隐节点的输入权和偏差。

步骤三所述特征提取模块学习一个变换矩阵，该变换矩阵可将高维基因表达谱数据投影到低维子空间，过程如下：

1.基于自适应的样本近邻表示，自适应学习样本间相似性，模型如下：

这里的Z为表达系数矩阵，Z_ij表示样本x_i与x_j的相似程度。N_k(x_i)是样本x_i的k个近邻样本集合，如果Z_ij＝0。

2.利用流形正则思想，即投影后的样本在新空间中仍保持与原空间中相同的近邻关系，公式如下：

||H(x_i)β-H(x_j)β||²Z_ij (3)

这里的H(x_i)，H(x_j)分别是隐藏层关于第i个样本x_i(i＝1,2,...,n)的输出向量，β∈R^L×d是极限学习机输出层输出权重，若d<m,则Hβ可将数据投影到低维子空间。Z_ij表示原始样本x_i与x_j的相似程度。

结合公式(2)和(3)得到基于自适应相似度学习的特征提取模型，通过交替迭代方向乘子算法，求得极限学习机输出层输出权重β，β即为投影矩阵，可以用其对原始高维基因表达谱数据进行降维。

步骤四所述数据可视化模块利用前述特征子空间中的数据进行一维和二维数据可视化；

步骤五所述聚类模块在低维特征空间对基因表达谱数据进行识别归类。过程为：利用输出权重矩阵将基因表达数据投影到特征空间，再利用k-means聚类得到类标签。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基因表达谱数据的无监督极限学习机特征提取系统，其特征在于，包括数据转换模块、非线性变换模块、特征提取模块、数据可视化模块、聚类分析模块；

2.根据权利要求1所述系统，其特征在于，所述数据转换模块采用二范数进行标准化处理，将原始高维基因表达谱数据转换到同一个量纲范围。

3.根据权利要求1所述系统，其特征在于，所述非线性变换模块计算隐藏层输出矩阵，其方法为：随机产生输入层与隐藏层的连接权值及隐藏层神经元阈值，选择S型函数作为激励函数，对每一个输入样本得到一个隐藏层输出向量。

4.根据权利要求1所述系统，其特征在于，所述特征提取模块学习变换矩阵的方法为：结合数据自适应相似度学习和流形学习思想构造目标函数，通过求解获得变换矩阵。

5.根据权利要求1所述系统，其特征在于，所述聚类分析模块，将投影到低维子空间的基因表达谱数据用k-means进行聚类，利用聚类准确率衡量特征提取的效果。

6.一种基于权利要求1至5任一所述系统的无监督极限学习机特征提取方法，其特征在于，包括如下步骤，

7.根据权利要求6所述的方法，其特征在于，所述步骤S2的具体实现过程如下：

步骤S21、随机产生输入权向量w和隐节点偏差b；

步骤S22、选择S型函数作为激励函数

步骤S23、计算每一个输入样本数据的隐藏层输出矩阵H：

8.根据权利要求6所述的方法，其特征在于，所述步骤S3的具体实现过程如下：

||H(x_i)β-H(x_j)β||²Z_ij (3)

步骤S33、结合公式(2)和(3)得到特征提取模型，通过交替迭代方向乘子法，求得输出权重β∈R^L×d，β即为投影矩阵，当d<m时，可以用H(X)β对原始高维基因表达谱数据X∈R^n×m进行降维，得到d维的投影样本。