CN105528516A

CN105528516A - 基于主元分析与超限学习机相结合的临床病理数据分类方法

Info

Publication number: CN105528516A
Application number: CN201510861654.8A
Authority: CN
Inventors: 陈翔; 庄华亮; 何熊熊; 伍益明
Original assignee: Sanmen People's Hospital
Current assignee: Sanmen People's Hospital
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2016-04-27

Abstract

一种基于主元分析与超限学习机相结合的临床病理数据分类方法，所述分类方法包括如下步骤：1)对临床数据进行归一化，通过主元分析进行特征提取，按特征显著性进行特征值排序，去除显著性阈值以下的数据维度，达到数据降维的目的；2)数据降维后，用超限学习算法训练前馈神经网络分类器；3)运用训练后的前馈神经网络分类器对测试样本进行测试，得分类结果。本发明提供了一种有效降低维度、简化计算、分类效果良好的基于主元分析与超限学习机相结合的临床病理数据分类方法。

Description

基于主元分析与超限学习机相结合的临床病理数据分类方法

技术领域

本发明涉及一种数据分类技术，具体是一种基于主元分析与超限学习机相结合的病理数据分类方法，可有效应用于高维临床病理数据分类和挖掘。

背景技术

临床生理指标是医疗诊断、医治、预后等行医基本依据。临床数据维度很高，医生确诊时，往往利用其专业医学知识和诊断经验，做出推测。这种诊断经验是一种直觉性知识与后天训练综合能力，是医生在多年临床诊断的经验中积累起来的。但是疾病的内在机理错综复杂，各种因素之间会互相影响，其与人体的关系也是错综复杂不可预知，其中交织着大量的非线性关系，如果能运用自主算法发掘数据内在特征，实现临床数据有效分类，将可以为医生的诊治策略提供有益的提示和补充。

医疗信息数据挖掘与应用近年来已受到广泛关注，相关众多技术应用中，数据提取和分类算法速度，是关乎相关技术性能的两个重要方面。前面提到临床生理数据往往维度较高，而进行算法优化过程常涉及到矩阵求逆等运算，造成计算量巨大的瓶颈效应。而数据分类模型往往又是数据驱动型黑箱，需采用迭代学习方法解决，又进一步加剧计算量瓶颈效应，给算法应用造成困难。

发明内容

为了克服已有医疗信息数据挖掘方式的维度较高、计算复杂、分类效果较差的不足,本发明提供了一种有效降低维度、简化计算、分类效果良好的基于主元分析与超限学习机相结合的临床病理数据分类方法。

本发明解决其技术问题所采用的技术方案是：

一种基于主元分析与超限学习机相结合的临床病理数据分类方法，所述分类方法包括如下步骤：

1)对临床数据进行归一化，通过主元分析进行特征提取，按特征显著性进行特征值排序，去除显著性阈值以下的数据维度，达到数据降维的目的；

2)数据降维后，用超限学习算法训练前馈神经网络分类器；

假设有N个训练样本(x_i,t_i),其中x_i＝[x_i1x_i2x_i3…x_in]^T，i＝1,2，3…N，n为样本维度，t_i＝[t_i1t_i2t_i3…x_im]^T,对于一个有个隐层神经元地单隐层网络，设置其模型为：

其中g(x)为激活函数，超限学习机对激活函数没有特别的要求，常见的激活函数有sigmoid函数和tanh函数，w_i为输入权重，β_i为连接隐层第i个神经元输出权重，

w_i＝[w_i1w_i2w_i3…_xin]^T(7)

β_i＝[β_i1β_i2β_i3…β_im]^T(8)

b_i是隐层第i个神经元地阈值，单隐层神经网络的训练目标是要使得拟合的误差最小，即其范数趋向于0,表示为：

Σ_{j = 1}^{\tilde{N}} | | o_{j} - t_{j} | | = 0 - - - (9)

存在β_i，w_i，b_i，使得可进一步表示为为线性方程：

Hβ＝T(10)

H为隐层节点的输出矩阵，β为输出权重矩阵，T为期望输出矩阵，

H (W_{1} ... W_{\tilde{N}}, b_{1} ... b_{\tilde{N}}, X_{1} ... X_{N}) = [\begin{matrix} g (W_{1} \cdot X_{1} + b_{1}) & ... & g (W_{\tilde{N}} \cdot X_{1} + b_{\tilde{N}}) \\ . & . \\ . & . \\ . & ... & . \\ g (W_{1} \cdot X_{N} + b_{1}) & ... & g (W_{\tilde{N}} \cdot X_{N} + b_{\tilde{N}}) \end{matrix}] - - - (11)

β = [\begin{matrix} β_{1}^{T} \\ . \\ . \\ . \\ β_{\tilde{N}}^{T} \end{matrix}], T = [\begin{matrix} t_{1}^{T} \\ . \\ . \\ . \\ t_{N}^{T} \end{matrix}], - - - (12)

找到使得：

| | H ({\hat{W}}_{i}, {\hat{b}}_{i}) \hat{β} - T | | = \min_{w, b, β} | | H (W_{i}, b_{i}) β - T | |

等价于求解最小化损失函数：

E = Σ_{j = 1}^{N} {(Σ_{i = 1}^{\tilde{N}} β_{i} g (W_{i} \cdot X_{j} + b_{i}) - t_{j})}^{2};

由公式(10)看出一旦输入权重w_i和阈值b_i被随机确定，隐层的输出矩阵H便随之确定，单隐层神经网络便转换成了求解线性系统：

Hβ＝T

通过广义逆矩阵可求得输出权重矩阵其中H⁺为H的广义逆矩阵；

3)运用训练后的前馈神经网络分类器对测试样本进行测试，得分类结果。

进一步，所述步骤1)中，数据降维的过程如下：

假设有一组随机样本为x_1，x₂,x₃,…，x_N，x_i＝[x_i1,x_i2,x_i3,…,x_im]^T,i＝1,2,…,N,m为样本的维数，这组样本的均值标记为

\begin{matrix} \overset{&OverBar;}{x} = \frac{1}{N} Σ_{i = 1}^{i = N} {[\begin{matrix} x_{i 1} & x_{i 2} & x_{i 3} & ... & x_{i m} \end{matrix}]}^{T} \\ = {[\begin{matrix} μ_{1} & μ_{2} & μ_{3} & ... & μ_{m} \end{matrix}]}^{T} \end{matrix} - - - (1)

将每个随机样本与平均值相减进行特征中心化，并得到一个_N×m矩阵集X，

X = [\begin{matrix} x_{1} - \overset{&OverBar;}{x} \\ x_{2} - \overset{&OverBar;}{x} \\ ... \\ x_{N} - \overset{&OverBar;}{x} \end{matrix}] - - - (2)

此时，每个维度上的均值均为0；

协方差定义：对于样本X和样本Y，其协方差定义为

\begin{matrix} C o v (X, Y) = E [(X - E [X]) (Y - E [Y])] \\ = \frac{1}{n - 1} [(x_{1} - \overset{&OverBar;}{x}) (y_{1} - \overset{&OverBar;}{y}) + (x_{2} - \overset{&OverBar;}{x}) (y_{2} - \overset{&OverBar;}{y}) + ... + (x_{n} - \overset{&OverBar;}{x}) (y_{n} - \overset{&OverBar;}{y})] \end{matrix} - - - (3)

当样本为m维数组时，它们的协方差便是协方差矩阵：

令矩阵P为：

P = {XX}^{T} = [\begin{matrix} x_{1} - \overset{&OverBar;}{x} & x_{2} - \overset{&OverBar;}{x} & ... & x_{N} - \overset{&OverBar;}{x} \end{matrix}] [\begin{matrix} {(x_{1} - \overset{&OverBar;}{x})}^{T} \\ {(x_{2} - \overset{&OverBar;}{x})}^{T} \\ ... \\ {(x_{N} - \overset{&OverBar;}{x})}^{T} \end{matrix}] - - - (5)

由公式(4)和(5)知矩阵P便是这组样本的协方差矩阵，通过求解协方差矩阵P的特征值和特征向量，并将特征值按照大小进行排序，

λ₁≥λ₂≥λ₃…≥λ_m

与之相对应的特征向量为：

e₁,e₂,e₃,…e_m

假设存在λ_i≈0,当i>k时，此时可取λ₁，λ₂，λ₃…λ_k对应的特征向量e₁,e₂,e₃…e_k,选取的特征向量矩阵与原数据集内积后得到新的降维数据集。

本发明基于主元分析与超限学习机相结合的病理数据分类技术,提取显著数据降低分类数据维度，再结合超限学习机高效解决优化学习问题，可有效应用于高维临床病理数据分类和挖掘。

本发明的有益效果主要表现在：有效降低维度、简化计算、分类效果良好。

附图说明

图1是单隐层前馈神经网络结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于主元分析与超限学习机相结合的临床病理数据分类方法，所述分类方法包括如下步骤：

据降维的过程如下：

假设有一组随机样本为x₁，x₂,x₃,…，x_N，x_i＝[x_i1,x_i2,x_i3,…，x_im]^T,i＝1,2,…,N,m为样本的维数，这组样本的均值标记为

\begin{matrix} \overset{&OverBar;}{x} = \frac{1}{N} Σ_{i = 1}^{i = N} {[\begin{matrix} x_{i 1} & x_{i 2} & x_{i 3} & ... & x_{i m} \end{matrix}]}^{T} \\ = {[\begin{matrix} μ_{1} & μ_{2} & μ_{3} & ... & μ_{m} \end{matrix}]}^{T} \end{matrix} - - - (1)

将每个随机样本与平均值相减进行特征中心化，并得到一个N×m矩阵集X，

X = [\begin{matrix} x_{1} - \overset{&OverBar;}{x} \\ x_{2} - \overset{&OverBar;}{x} \\ ... \\ x_{N} - \overset{&OverBar;}{x} \end{matrix}] - - - (2)

此时，每个维度上的均值均为0；

协方差定义：对于样本X和样本Y，其协方差定义为

\begin{matrix} C o v (X, Y) = E [(X - E [X]) (Y - E [Y])] \\ = \frac{1}{n - 1} [(x_{1} - \overset{&OverBar;}{x}) (y_{1} - \overset{&OverBar;}{y}) + (x_{2} - \overset{&OverBar;}{x}) (y_{2} - \overset{&OverBar;}{y}) + ... + (x_{n} - \overset{&OverBar;}{x}) (y_{n} - \overset{&OverBar;}{y})] \end{matrix} - - - (3)

当样本为m维数组时，它们的协方差便是协方差矩阵：

令矩阵P为：

P = {XX}^{T} = [\begin{matrix} x_{1} - \overset{&OverBar;}{x} & x_{2} - \overset{&OverBar;}{x} & ... & x_{N} - \overset{&OverBar;}{x} \end{matrix}] [\begin{matrix} {(x_{1} - \overset{&OverBar;}{x})}^{T} \\ {(x_{2} - \overset{&OverBar;}{x})}^{T} \\ ... \\ {(x_{N} - \overset{&OverBar;}{x})}^{T} \end{matrix}] - - - (5)

λ₁≥λ₂≥λ₃…≥λ_m

与之相对应的特征向量为：

e₁,e₂,e₃,…e_m

主元分析中的每个维度的特征值都意味着这一维的方差显著性，差异越显著，越利于数据分类，通过的差异大小选取相应的特征值，假设存在λ_i≈0,当i>k时，此时可取λ₁，λ₂，λ₃…λ_k对应的特征向量e₁,e₂,e₃…e_k,选取的特征向量矩阵与原数据集内积后得到新的降维数据集；

2)数据降维后，用超限学习算法训练前馈神经网络分类器；

Σ_{i = 1}^{\tilde{N}} β_{i} g (W_{i} \cdot X_{j} + b_{i}) = o_{j}, j = 1, 2, 3 ... N - - - (6)

其中g(x)为激活函数，ELM对激活函数没有特别的要求，常见的激活函数有sigmoid函数和tanh函数，w_i为输入权重，β_i为连接隐层第i个神经元输出权重，

w_i＝[w_i1w_i2w_i3…w_in]^T(7)

β_i＝[β_i1β_i2β_i3…β_im]^T(8)

Σ_{j = 1}^{\tilde{N}} | | o_{j} - t_{j} | | = 0 - - - (9)

存在β_i，w_i，b_i，使得可进一步表示为为线性方程：

Hβ＝T(10)

H (W_{1} ... W_{\tilde{N}}, b_{1} ... b_{\tilde{N}}, X_{1} ... X_{N}) = [\begin{matrix} g (W_{1} \cdot X_{1} + b_{1}) & ... & g (W_{\tilde{N}} \cdot X_{1} + b_{\tilde{N}}) \\ . & . \\ . & . \\ . & ... & . \\ g (W_{1} \cdot X_{N} + b_{1}) & ... & g (W_{\tilde{N}} \cdot X_{N} + b_{\tilde{N}}) \end{matrix}] - - - (11)

β = [\begin{matrix} β_{1}^{T} \\ . \\ . \\ . \\ β_{\tilde{N}}^{T} \end{matrix}], T = [\begin{matrix} t_{1}^{T} \\ . \\ . \\ . \\ t_{N}^{T} \end{matrix}], - - - (12)

找到使得：

| | H ({\hat{W}}_{i}, {\hat{b}}_{i}) \hat{β} - T | | = \min_{w, b, β} | | H (W_{i}, b_{i}) β - T | |

等价于求解最小化损失函数：

E = Σ_{j = 1}^{N} {(Σ_{i = 1}^{\tilde{N}} β_{i} g (W_{i} \cdot X_{j} + b_{i}) - t_{j})}^{2};

Hβ＝T

Claims

1.一种基于主元分析与超限学习机相结合的临床病理数据分类方法，其特征在于：所述分类方法包括如下步骤：

2)数据降维后，用超限学习算法训练前馈神经网络分类器；

假设有N个训练样本(x_i，t_i)，其中x_i＝[x_i1x_i2x_i3...x_in]^T，i＝1，2，3…N，n为样本维度，t_i＝[t_i1t_i2t_i3...x_im]^T,对于一个有个隐层神经元地单隐层网络，设置其模型为：

Σ_{i = 1}^{\tilde{N}} β_{i} g (W_{i} \cdot X_{j} + b_{i}) = o_{j}, j = 1, 2, 3 ... N - - - (6)

w_i＝[w_i1w_i2w_i3...w_in]^T(7)

β_i＝[β_i1β_i2β_i3...β_im]^T(8)

b_i是隐层第i个神经元地阈值，单隐层神经网络的训练目标是要使

得拟合的误差最小，即其范数趋向于0,表示为：

Σ_{j = 1}^{\tilde{N}} | | o_{j} - t_{j} | | = 0 - - - (9)

存在β_i，w_i，b_i，使得可进一步表示为为线性方程：

Hβ＝T(10)

H (W_{1} ... W_{\tilde{N}}, b_{1} ... b_{\tilde{N}}, X_{1} ... X_{N}) = [\begin{matrix} g (W_{1} \cdot X_{1} + b_{1}) & ... & g (W_{\tilde{N}} \cdot X_{1} + b_{\tilde{N}}) \\ \cdot & \cdot \\ \cdot & \cdot \\ \cdot & ... & \cdot \\ g (W_{1} \cdot X_{N} + b_{1}) & ... & g (W_{\tilde{N}} \cdot X_{N} + b_{\tilde{N}}) \end{matrix}] - - - (11)

\begin{matrix} β = [\begin{matrix} β_{1}^{T} \\ \cdot \\ \cdot \\ \cdot \\ β_{\tilde{N}}^{T} \end{matrix}], & T = [\begin{matrix} t_{1}^{T} \\ \cdot \\ \cdot \\ \cdot \\ t_{N}^{T} \end{matrix}] \end{matrix}, - - - (12)

找到使得：

| | H ({\hat{W}}_{i}, {\hat{b}}_{i}) \hat{β} - T | | \min_{w, b, β} | | H (W_{i}, b_{i}) β - T | |

等价于求解最小化损失函数：

E = Σ_{j = 1}^{N} {(Σ_{i = 1}^{\tilde{N}} β_{i} g (W_{i} \cdot X_{j} + b_{i}) - t_{j})}^{2};

Hβ＝T

通过广义逆矩阵可求得输出权重矩阵

其中H⁺为H的广义逆矩阵；

2.如权利要求1所述的基于主元分析与超限学习机相结合的临床病理数据分类方法，其特征在于：所述步骤1)中，数据降维的过程如下：

\begin{matrix} \overset{&OverBar;}{x} = \frac{1}{N} Σ_{i = 1}^{i = N} {[\begin{matrix} x_{i 1} & x_{i 2} & x_{i 3} & ... & x_{i m} \end{matrix}]}^{T} \\ = {[\begin{matrix} μ_{1} & μ_{2} & μ_{3} & ... & μ_{m} \end{matrix}]}^{T} \end{matrix} - - - (1)

X = [\begin{matrix} x_{1} - \overset{&OverBar;}{x} \\ x_{2} - \overset{&OverBar;}{x} \\ ... \\ x_{N} - \overset{&OverBar;}{x} \end{matrix}] - - - (2)

此时，每个维度上的均值均为0；

协方差定义：对于样本X和样本Y，其协方差定义为

\begin{matrix} C o v (X, Y) = E [(C - E [X]) (Y - E [Y])] \\ = \frac{1}{n - 1} [(x_{1} - \overset{&OverBar;}{x}) (y_{1} - \overset{&OverBar;}{y}) + (x_{2} - \overset{&OverBar;}{x}) (y_{2} - \overset{&OverBar;}{y}) + ... + (x_{n} - \overset{&OverBar;}{x}) (y_{n} - \overset{&OverBar;}{y})] \end{matrix} - - - (3)

当样本为m维数组时，它们的协方差便是协方差矩阵：

令矩阵P为：

P = {XX}^{T} = [\begin{matrix} x_{1} - \overset{&OverBar;}{x} & x_{2} - \overset{&OverBar;}{x} & ... & x_{N} - \overset{&OverBar;}{x} \end{matrix}] [\begin{matrix} {(x_{1} - \overset{&OverBar;}{x})}^{T} \\ {(x_{2} - \overset{&OverBar;}{x})}^{T} \\ ... \\ {(x_{N} - \overset{&OverBar;}{x})}^{T} \end{matrix}] - - - (5)

由公式(11)和(12)知矩阵P便是这组样本的协方差矩阵，通过求解协方差矩阵P的特征值和特征向量，并将特征值按照大小进行排序，

λ₁≥λ₂≥λ₃...≥λ_M

与之相对应的特征向量为：

e₁,e₂,e₃,...e_M

假设存在λ_i≈0,当i>k时，此时可取λ₁，λ₂，λ₃...λ_k对应的特征向量e₁,e₂,e₃...e_k,选取的特征向量矩阵与原数据集内积后得到新的降维数据集。