CN105528516A - 基于主元分析与超限学习机相结合的临床病理数据分类方法 - Google Patents
基于主元分析与超限学习机相结合的临床病理数据分类方法 Download PDFInfo
- Publication number
- CN105528516A CN105528516A CN201510861654.8A CN201510861654A CN105528516A CN 105528516 A CN105528516 A CN 105528516A CN 201510861654 A CN201510861654 A CN 201510861654A CN 105528516 A CN105528516 A CN 105528516A
- Authority
- CN
- China
- Prior art keywords
- overbar
- centerdot
- matrix
- sample
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于主元分析与超限学习机相结合的临床病理数据分类方法,所述分类方法包括如下步骤:1)对临床数据进行归一化,通过主元分析进行特征提取,按特征显著性进行特征值排序,去除显著性阈值以下的数据维度,达到数据降维的目的;2)数据降维后,用超限学习算法训练前馈神经网络分类器;3)运用训练后的前馈神经网络分类器对测试样本进行测试,得分类结果。本发明提供了一种有效降低维度、简化计算、分类效果良好的基于主元分析与超限学习机相结合的临床病理数据分类方法。
Description
技术领域
本发明涉及一种数据分类技术,具体是一种基于主元分析与超限学习机相结合的病理数据分类方法,可有效应用于高维临床病理数据分类和挖掘。
背景技术
临床生理指标是医疗诊断、医治、预后等行医基本依据。临床数据维度很高,医生确诊时,往往利用其专业医学知识和诊断经验,做出推测。这种诊断经验是一种直觉性知识与后天训练综合能力,是医生在多年临床诊断的经验中积累起来的。但是疾病的内在机理错综复杂,各种因素之间会互相影响,其与人体的关系也是错综复杂不可预知,其中交织着大量的非线性关系,如果能运用自主算法发掘数据内在特征,实现临床数据有效分类,将可以为医生的诊治策略提供有益的提示和补充。
医疗信息数据挖掘与应用近年来已受到广泛关注,相关众多技术应用中,数据提取和分类算法速度,是关乎相关技术性能的两个重要方面。前面提到临床生理数据往往维度较高,而进行算法优化过程常涉及到矩阵求逆等运算,造成计算量巨大的瓶颈效应。而数据分类模型往往又是数据驱动型黑箱,需采用迭代学习方法解决,又进一步加剧计算量瓶颈效应,给算法应用造成困难。
发明内容
为了克服已有医疗信息数据挖掘方式的维度较高、计算复杂、分类效果较差的不足,本发明提供了一种有效降低维度、简化计算、分类效果良好的基于主元分析与超限学习机相结合的临床病理数据分类方法。
本发明解决其技术问题所采用的技术方案是:
一种基于主元分析与超限学习机相结合的临床病理数据分类方法,所述分类方法包括如下步骤:
1)对临床数据进行归一化,通过主元分析进行特征提取,按特征显著性进行特征值排序,去除显著性阈值以下的数据维度,达到数据降维的目的;
2)数据降维后,用超限学习算法训练前馈神经网络分类器;
假设有N个训练样本(xi,ti),其中xi=[xi1xi2xi3…xin]T,i=1,2,3…N,n为样本维度,ti=[ti1ti2ti3…xim]T,对于一个有个隐层神经元地单隐层网络,设置其模型为:
其中g(x)为激活函数,超限学习机对激活函数没有特别的要求,常见的激活函数有sigmoid函数和tanh函数,wi为输入权重,βi为连接隐层第i个神经元输出权重,
wi=[wi1wi2wi3…xin]T(7)
βi=[βi1βi2βi3…βim]T(8)
bi是隐层第i个神经元地阈值,单隐层神经网络的训练目标是要使得拟合的误差最小,即其范数趋向于0,表示为:
存在βi,wi,bi,使得可进一步表示为为线性方程:
Hβ=T(10)
H为隐层节点的输出矩阵,β为输出权重矩阵,T为期望输出矩阵,
找到使得:
等价于求解最小化损失函数:
由公式(10)看出一旦输入权重wi和阈值bi被随机确定,隐层的输出矩阵H便随之确定,单隐层神经网络便转换成了求解线性系统:
Hβ=T
通过广义逆矩阵可求得输出权重矩阵其中H+为H的广义逆矩阵;
3)运用训练后的前馈神经网络分类器对测试样本进行测试,得分类结果。
进一步,所述步骤1)中,数据降维的过程如下:
假设有一组随机样本为x1,x2,x3,…,xN,xi=[xi1,xi2,xi3,…,xim]T,i=1,2,…,N,m为样本的维数,这组样本的均值标记为
将每个随机样本与平均值相减进行特征中心化,并得到一个N×m矩阵集X,
此时,每个维度上的均值均为0;
协方差定义:对于样本X和样本Y,其协方差定义为
当样本为m维数组时,它们的协方差便是协方差矩阵:
令矩阵P为:
由公式(4)和(5)知矩阵P便是这组样本的协方差矩阵,通过求解协方差矩阵P的特征值和特征向量,并将特征值按照大小进行排序,
λ1≥λ2≥λ3…≥λm
与之相对应的特征向量为:
e1,e2,e3,…em
假设存在λi≈0,当i>k时,此时可取λ1,λ2,λ3…λk对应的特征向量e1,e2,e3…ek,选取的特征向量矩阵与原数据集内积后得到新的降维数据集。
本发明基于主元分析与超限学习机相结合的病理数据分类技术,提取显著数据降低分类数据维度,再结合超限学习机高效解决优化学习问题,可有效应用于高维临床病理数据分类和挖掘。
本发明的有益效果主要表现在:有效降低维度、简化计算、分类效果良好。
附图说明
图1是单隐层前馈神经网络结构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于主元分析与超限学习机相结合的临床病理数据分类方法,所述分类方法包括如下步骤:
1)对临床数据进行归一化,通过主元分析进行特征提取,按特征显著性进行特征值排序,去除显著性阈值以下的数据维度,达到数据降维的目的;
据降维的过程如下:
假设有一组随机样本为x1,x2,x3,…,xN,xi=[xi1,xi2,xi3,…,xim]T,i=1,2,…,N,m为样本的维数,这组样本的均值标记为
将每个随机样本与平均值相减进行特征中心化,并得到一个N×m矩阵集X,
此时,每个维度上的均值均为0;
协方差定义:对于样本X和样本Y,其协方差定义为
当样本为m维数组时,它们的协方差便是协方差矩阵:
令矩阵P为:
由公式(4)和(5)知矩阵P便是这组样本的协方差矩阵,通过求解协方差矩阵P的特征值和特征向量,并将特征值按照大小进行排序,
λ1≥λ2≥λ3…≥λm
与之相对应的特征向量为:
e1,e2,e3,…em
主元分析中的每个维度的特征值都意味着这一维的方差显著性,差异越显著,越利于数据分类,通过的差异大小选取相应的特征值,假设存在λi≈0,当i>k时,此时可取λ1,λ2,λ3…λk对应的特征向量e1,e2,e3…ek,选取的特征向量矩阵与原数据集内积后得到新的降维数据集;
2)数据降维后,用超限学习算法训练前馈神经网络分类器;
假设有N个训练样本(xi,ti),其中xi=[xi1xi2xi3…xin]T,i=1,2,3…N,n为样本维度,ti=[ti1ti2ti3…xim]T,对于一个有个隐层神经元地单隐层网络,设置其模型为:
其中g(x)为激活函数,ELM对激活函数没有特别的要求,常见的激活函数有sigmoid函数和tanh函数,wi为输入权重,βi为连接隐层第i个神经元输出权重,
wi=[wi1wi2wi3…win]T(7)
βi=[βi1βi2βi3…βim]T(8)
bi是隐层第i个神经元地阈值,单隐层神经网络的训练目标是要使得拟合的误差最小,即其范数趋向于0,表示为:
存在βi,wi,bi,使得可进一步表示为为线性方程:
Hβ=T(10)
H为隐层节点的输出矩阵,β为输出权重矩阵,T为期望输出矩阵,
找到使得:
等价于求解最小化损失函数:
由公式(10)看出一旦输入权重wi和阈值bi被随机确定,隐层的输出矩阵H便随之确定,单隐层神经网络便转换成了求解线性系统:
Hβ=T
通过广义逆矩阵可求得输出权重矩阵其中H+为H的广义逆矩阵;
3)运用训练后的前馈神经网络分类器对测试样本进行测试,得分类结果。
Claims (2)
1.一种基于主元分析与超限学习机相结合的临床病理数据分类方法,其特征在于:所述分类方法包括如下步骤:
1)对临床数据进行归一化,通过主元分析进行特征提取,按特征显著性进行特征值排序,去除显著性阈值以下的数据维度,达到数据降维的目的;
2)数据降维后,用超限学习算法训练前馈神经网络分类器;
假设有N个训练样本(xi,ti),其中xi=[xi1xi2xi3...xin]T,i=1,2,3…N,n为样本维度,ti=[ti1ti2ti3...xim]T,对于一个有个隐层神经元地单隐层网络,设置其模型为:
其中g(x)为激活函数,超限学习机对激活函数没有特别的要求,常见的激活函数有sigmoid函数和tanh函数,wi为输入权重,βi为连接隐层第i个神经元输出权重,
wi=[wi1wi2wi3...win]T(7)
βi=[βi1βi2βi3...βim]T(8)
bi是隐层第i个神经元地阈值,单隐层神经网络的训练目标是要使
得拟合的误差最小,即其范数趋向于0,表示为:
存在βi,wi,bi,使得可进一步表示为为线性方程:
Hβ=T(10)
H为隐层节点的输出矩阵,β为输出权重矩阵,T为期望输出矩阵,
找到使得:
等价于求解最小化损失函数:
由公式(10)看出一旦输入权重wi和阈值bi被随机确定,隐层的输出矩阵H便随之确定,单隐层神经网络便转换成了求解线性系统:
Hβ=T
通过广义逆矩阵可求得输出权重矩阵
其中H+为H的广义逆矩阵;
3)运用训练后的前馈神经网络分类器对测试样本进行测试,得分类结果。
2.如权利要求1所述的基于主元分析与超限学习机相结合的临床病理数据分类方法,其特征在于:所述步骤1)中,数据降维的过程如下:
假设有一组随机样本为x1,x2,x3,…,xN,xi=[xi1,xi2,xi3,…,xim]T,i=1,2,…,N,m为样本的维数,这组样本的均值标记为
此时,每个维度上的均值均为0;
协方差定义:对于样本X和样本Y,其协方差定义为
当样本为m维数组时,它们的协方差便是协方差矩阵:
令矩阵P为:
由公式(11)和(12)知矩阵P便是这组样本的协方差矩阵,通过求解协方差矩阵P的特征值和特征向量,并将特征值按照大小进行排序,
λ1≥λ2≥λ3...≥λM
与之相对应的特征向量为:
e1,e2,e3,...eM
假设存在λi≈0,当i>k时,此时可取λ1,λ2,λ3...λk对应的特征向量e1,e2,e3...ek,选取的特征向量矩阵与原数据集内积后得到新的降维数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510861654.8A CN105528516A (zh) | 2015-12-01 | 2015-12-01 | 基于主元分析与超限学习机相结合的临床病理数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510861654.8A CN105528516A (zh) | 2015-12-01 | 2015-12-01 | 基于主元分析与超限学习机相结合的临床病理数据分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105528516A true CN105528516A (zh) | 2016-04-27 |
Family
ID=55770737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510861654.8A Pending CN105528516A (zh) | 2015-12-01 | 2015-12-01 | 基于主元分析与超限学习机相结合的临床病理数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105528516A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156781A (zh) * | 2016-07-12 | 2016-11-23 | 北京航空航天大学 | 排序卷积神经网络构建方法及其图像处理方法与装置 |
CN106485205A (zh) * | 2016-09-20 | 2017-03-08 | 北京工业大学 | 基于多层超限学习机的运动想象脑电信号分类方法 |
CN106779215A (zh) * | 2016-12-15 | 2017-05-31 | 全球能源互联网研究院 | 一种基于机器学习的电网全局延时态势感知方法 |
CN107526117A (zh) * | 2017-07-06 | 2017-12-29 | 天津科技大学 | 基于自动编码和超限学习联合网络的声波速度预测方法 |
CN107767946A (zh) * | 2017-09-26 | 2018-03-06 | 浙江工业大学 | 基于pca和pso‑kelm模型的乳腺癌诊断系统 |
CN108446676A (zh) * | 2018-05-03 | 2018-08-24 | 南京信息工程大学 | 基于有序编码及多层随机投影的人脸图像年龄判别方法 |
CN108597572A (zh) * | 2018-04-20 | 2018-09-28 | 成都昂联科技有限公司 | 一种智能健康规划系统 |
CN108717505A (zh) * | 2018-05-29 | 2018-10-30 | 广东工业大学 | 一种基于k-rvfl的固化热过程时空建模方法 |
CN110531163A (zh) * | 2019-04-18 | 2019-12-03 | 中国人民解放军国防科技大学 | 一种磁浮列车悬浮斩波器母线电容状态监测方法 |
TWI682330B (zh) * | 2018-05-15 | 2020-01-11 | 美爾敦股份有限公司 | 自學式資料分類系統及方法 |
CN111159646A (zh) * | 2019-12-24 | 2020-05-15 | 一汽解放汽车有限公司 | 喷油器多工况性能数据的分组方法 |
CN112331322A (zh) * | 2020-12-04 | 2021-02-05 | 上海蓬海涞讯数据技术有限公司 | 基于神经网络实现针对医院专科能力进行量化评价处理的方法、装置、处理器及其存储介质 |
WO2021109386A1 (zh) * | 2019-12-05 | 2021-06-10 | 中国科学院自动化研究所 | 基于效用模型的个性化诊疗方法的确定方法及系统 |
CN113314201A (zh) * | 2021-06-17 | 2021-08-27 | 南通市第一人民医院 | 一种神经内科临床护理安全隐患分析方法及系统 |
-
2015
- 2015-12-01 CN CN201510861654.8A patent/CN105528516A/zh active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10504209B2 (en) | 2016-07-12 | 2019-12-10 | Beihang University | Image dehazing method |
CN106156781A (zh) * | 2016-07-12 | 2016-11-23 | 北京航空航天大学 | 排序卷积神经网络构建方法及其图像处理方法与装置 |
CN106156781B (zh) * | 2016-07-12 | 2019-09-10 | 北京航空航天大学 | 排序卷积神经网络构建方法及其图像处理方法与装置 |
CN106485205A (zh) * | 2016-09-20 | 2017-03-08 | 北京工业大学 | 基于多层超限学习机的运动想象脑电信号分类方法 |
CN106779215A (zh) * | 2016-12-15 | 2017-05-31 | 全球能源互联网研究院 | 一种基于机器学习的电网全局延时态势感知方法 |
CN106779215B (zh) * | 2016-12-15 | 2021-12-03 | 全球能源互联网研究院 | 一种基于机器学习的电网全局延时态势感知方法 |
CN107526117A (zh) * | 2017-07-06 | 2017-12-29 | 天津科技大学 | 基于自动编码和超限学习联合网络的声波速度预测方法 |
CN107526117B (zh) * | 2017-07-06 | 2019-08-13 | 天津科技大学 | 基于自动编码和超限学习联合网络的声波速度预测方法 |
CN107767946A (zh) * | 2017-09-26 | 2018-03-06 | 浙江工业大学 | 基于pca和pso‑kelm模型的乳腺癌诊断系统 |
CN107767946B (zh) * | 2017-09-26 | 2020-10-02 | 浙江工业大学 | 基于pca和pso-kelm模型的乳腺癌诊断系统 |
CN108597572A (zh) * | 2018-04-20 | 2018-09-28 | 成都昂联科技有限公司 | 一种智能健康规划系统 |
CN108446676A (zh) * | 2018-05-03 | 2018-08-24 | 南京信息工程大学 | 基于有序编码及多层随机投影的人脸图像年龄判别方法 |
CN108446676B (zh) * | 2018-05-03 | 2020-08-25 | 南京信息工程大学 | 基于有序编码及多层随机投影的人脸图像年龄判别方法 |
TWI682330B (zh) * | 2018-05-15 | 2020-01-11 | 美爾敦股份有限公司 | 自學式資料分類系統及方法 |
CN108717505A (zh) * | 2018-05-29 | 2018-10-30 | 广东工业大学 | 一种基于k-rvfl的固化热过程时空建模方法 |
CN110531163A (zh) * | 2019-04-18 | 2019-12-03 | 中国人民解放军国防科技大学 | 一种磁浮列车悬浮斩波器母线电容状态监测方法 |
WO2021109386A1 (zh) * | 2019-12-05 | 2021-06-10 | 中国科学院自动化研究所 | 基于效用模型的个性化诊疗方法的确定方法及系统 |
CN111159646A (zh) * | 2019-12-24 | 2020-05-15 | 一汽解放汽车有限公司 | 喷油器多工况性能数据的分组方法 |
CN111159646B (zh) * | 2019-12-24 | 2023-08-15 | 一汽解放汽车有限公司 | 喷油器多工况性能数据的分组方法 |
CN112331322A (zh) * | 2020-12-04 | 2021-02-05 | 上海蓬海涞讯数据技术有限公司 | 基于神经网络实现针对医院专科能力进行量化评价处理的方法、装置、处理器及其存储介质 |
CN113314201A (zh) * | 2021-06-17 | 2021-08-27 | 南通市第一人民医院 | 一种神经内科临床护理安全隐患分析方法及系统 |
CN113314201B (zh) * | 2021-06-17 | 2022-05-13 | 南通市第一人民医院 | 一种神经内科临床护理安全隐患分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105528516A (zh) | 基于主元分析与超限学习机相结合的临床病理数据分类方法 | |
CN108874782B (zh) | 一种层次注意力lstm和知识图谱的多轮对话管理方法 | |
Srinivas et al. | A hybrid CNN-KNN model for MRI brain tumor classification | |
Ismail et al. | A hybrid model of self-organizing maps (SOM) and least square support vector machine (LSSVM) for time-series forecasting | |
CN106529569B (zh) | 基于深度学习的三维模型三角面特征学习分类方法及装置 | |
CN103728551B (zh) | 一种基于级联集成分类器的模拟电路故障诊断方法 | |
CN106778882B (zh) | 一种基于前馈神经网络的智能合约自动分类方法 | |
CN107578061A (zh) | 基于最小化损失学习的不平衡样本分类方法 | |
CN105446484A (zh) | 一种基于隐马尔科夫模型的肌电信号手势识别方法 | |
CN110580268A (zh) | 一种基于深度学习的信用评分集成分类系统和方法 | |
CN102521656A (zh) | 非平衡样本分类的集成迁移学习方法 | |
CN112270345B (zh) | 基于自监督字典学习的聚类算法 | |
CN110084148A (zh) | 一种高压断路器机械故障诊断方法 | |
CN102520341A (zh) | 一种基于Bayes-KFCM算法的模拟电路故障诊断方法 | |
CN103489033A (zh) | 融合自组织映射与概率神经网络的增量式学习方法 | |
CN106503616A (zh) | 一种基于分层超限学习机的运动想象脑电信号分类方法 | |
CN103218617A (zh) | 一种多线性大间距的特征提取方法 | |
CN111123894A (zh) | 一种基于lstm和mlp结合的化工过程故障诊断方法 | |
CN107491782A (zh) | 利用语义空间信息的针对少量训练数据的图像分类方法 | |
CN104598925A (zh) | 一种基于ELM的多类Adaboost集成学习方法 | |
CN105740908A (zh) | 基于核空间自解释稀疏表示的分类器设计方法 | |
CN103440651B (zh) | 一种基于秩最小化的多标签图像标注结果融合方法 | |
Li et al. | A deep learning method for material performance recognition in laser additive manufacturing | |
CN114579743A (zh) | 基于注意力的文本分类方法、装置及计算机可读介质 | |
CN113868374B (zh) | 基于多头注意力机制的图卷积网络生物医学信息提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160427 |
|
RJ01 | Rejection of invention patent application after publication |