CN104765846A - 一种基于特征提取算法的数据特征分类方法 - Google Patents

一种基于特征提取算法的数据特征分类方法 Download PDF

Info

Publication number
CN104765846A
CN104765846A CN201510184753.7A CN201510184753A CN104765846A CN 104765846 A CN104765846 A CN 104765846A CN 201510184753 A CN201510184753 A CN 201510184753A CN 104765846 A CN104765846 A CN 104765846A
Authority
CN
China
Prior art keywords
data
feature
vital sign
algorithm
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510184753.7A
Other languages
English (en)
Other versions
CN104765846B (zh
Inventor
闫允一
闫长虎
郭宝龙
孟繁杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201510184753.7A priority Critical patent/CN104765846B/zh
Publication of CN104765846A publication Critical patent/CN104765846A/zh
Application granted granted Critical
Publication of CN104765846B publication Critical patent/CN104765846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明属于临床数据检测和数据挖掘技术领域,具体涉及是一种基于特征提取算法的数据特征分类方法,包括以下步骤:首先,收集并构建正常人的生命体征数据库N;其次,收集病人的生命体征数据S-1;然后,从数据库N中选取与收集的病人生命体征数据S-1相匹配的正常人的生命体征数据N-1,引入特征提取算法,从病人生命体征数据S-1的时间特征序列中提取出最有鉴别能力的特征;再次,从提取的全部特征中选取相应的特征子集;最后,用数据挖掘算法将选取的特征子集进行分类。该方法,通过挖掘无线医疗设备检测的实时的、高频率的病人生命体征数据,防止病人临床恶化的同时为出现的死亡提供早期预警,适用性强,提高了工作效率。

Description

一种基于特征提取算法的数据特征分类方法
技术领域
本发明属于临床数据检测和数据挖掘技术领域,具体涉及是一种基于特征提取算法的数据特征分类方法。
背景技术
在现代任何一家医院,重症监护病房(ICU,Intensive Care Unit)都是死亡率最高的部分(8-19%)。因此,实时检测重症监护病房中病人的生命体征,并对其生命体征中的心率和血氧饱和浓度进行特征提取和分析,在防止ICU病人的病情突然恶化甚至是死亡方面起着重要作用。
研究发现,由于生物系统的特质,实时临床数据具有一些独特的功能。现有技术中对临床数据进行分析时存在两个主要问题:首先,在建立模型时往往只考虑病人的一个重要体征,而这难以对多个时间序列进行分析;其次,时间序列数据中包含着丰富的信息,对单一时间序列来讲,有一阶,二阶时间序列特征,还有一些复杂的特征,如趋势波动分析,频谱分析,近似熵等,然而这些特征没有被充分利用。
针对这种情况,本发明提供了一种基于特征提取算法的数据特征分类方法,包括以下步骤:首先,收集正常人的生命体征数据,并构建成数据库N存储;其次,收集病人的生命体征数据S-1;然后,从数据库N中选取与收集的病人生命体征数据S-1相匹配的正常人的生命体征数据N-1,引入特征提取算法,从病人生命体征数据S-1的时间特征序列中提取出呼吸、心率、血氧饱和度、血压这四种最有鉴别能力的特征;再次,从提取的全部特征中选取相应的特征子集;最后,用数据挖掘算法将选取的特征子集进行分类。通过挖掘无线医疗设备检测的实时的、高频率的病人生命体征数据,在防止病人临床恶化以及为可能出现的死亡提供早期预警方面起了重要作用,适用性强,提高了工作效率。
发明内容
本发明的目的是克服现有技术中的不足,充分利用时间序列数据中的信息,同时对多个特征数据进行提取和分类,使诊断更加准确有效。
为此,本发明提供了一种基于特征提取算法的数据特征分类方法,包括如下步骤:
步骤一、收集正常人的生命体征数据,并构建成数据库N存储,通过无线医疗监控系统收集实时的、高频率的正常人的生命体征数据;
步骤二、收集病人的生命体征数据S-1,通过无线医疗监控系统收集实时的、高频率的病人的生命体征数据;
步骤三、从数据库N中选取与收集的病人的生命体征数据S-1相匹配的正常人的生命体征数据N-1,引入特征提取算法,从病人的生命体征数据S-1的时间特征序列中提取出呼吸、心率、血氧饱和度、血压这四种最具有鉴别能力的特征;
步骤四、从提取的全部特征中选取相应的组合特征子集;
步骤五、用数据挖掘算法将选择出的特征子集进行分类。
上述一种基于特征提取算法的数据特征分类方法,所述步骤三的特征提取算法包括如下步骤:
(3.1)用趋势波动分析算法获取病人的生命体征数据S-1与正常人的生命体征数据N-1的线性拟合特征数据;
设时间序列为{x(i)},1≤i≤N,定标指数的计算过程如下:
(3.1.1)构造去均值的和序列:
Y ( i ) = &Sigma; i = 1 j [ x ( i ) - < x > ] , 1 &le; j &le; N
其中 < x > = 1 N &Sigma; i = 1 N x ( i ) .
(3.1.2)把和序列Y(i)不重叠地分解成长度为n的不重叠的片段(片段个数Nn≡[N/n])。由于数据长度N不一定是时间尺度n的整数倍,为了不忽视剩余部分数据,从Y(i)的另一端开始重复划分一次,这样一共得到2Nn个片段。
(3.1.3)从每一个片段序列v中去除其趋势Yn(i)=Y(i)-pv(i)。其中趋势pv(i)为第v个片段的拟合多项式,多项式的阶次n可以为1(线性),2(平方),3(立方),甚至更高。
(3.1.4)求2Nn个去趋势片段的均方根,即DFA波动函数:
F n 2 ( v ) = < Y n 2 ( i ) > = 1 N &Sigma; i = 1 N Y n 2 [ ( v - 1 ) n + i ]
F ( n ) = 1 2 N &Sigma; v = 1 2 N s F n 2 ( v )
由不同的去趋势阶次n得到的波动函数F(s)表示为F(n)(s)。如果原始序列x(i)为长程幂函数相关的,则波动函数以幂函数增加,F(n)(n)与n的依赖关系为:
F(n)(n)∝nα
其中,α(≠1/2)成为定标函数。
(3.1.5)以双对数坐标画出F(n)与n的函数关系,并且通过线性拟合计算曲线的斜率,即α的值。将曲线分为两部分,然后对两段曲线分别进行线性拟合,从而得到两段的不同定标函数α1和α2。其中,α1为当1≤n≤φ(N)时,log(F(n))与log(n)拟合所得的曲线的斜率;α2为当φ(N)≤n≤N时,log(F(n))与log(n)拟合所得的曲线的斜率。我们定义φ(N)为N的函数:φ(N)=γ*N。首先从在医院死亡和存活的病人中各采样一部分数据,然后固定γ,得到相应的α1和α2;如此挑选出最有鉴别力的γ。
(3.2)用近似熵算法描述数据的复杂度特征;
其中,提取近似熵的算法如下:将时间序列分割成N-M+1个子序列,计算子序列之间的相似性。在容许偏差r情况下,计算重构后的矢量平均自相关程度。定义从原始时间序列中进行空间重构后的长度为m的子序列为
v(n)=[x(n),x(n+1),…,x(n+m-1)],n=1,…,N-m+1
子序列v(i)和v(j)之间的距离定义为序列标量分量之间的最大距离,计算公式如下:
C m , r ( i ) = N m , r ( i ) N - m + 1
其中Nm,r(i)为使得序列v(i)和v(j)距离小于r的向量j的数量。r为容许偏差。Cm,r(i)定义为找到的一个序列,使之与v(i)距离小于r的概率。
对所有子序列的Cm,r(i)概率取对数平均得到:
F m , r = &Sigma; i = 1 N - m + 1 ln ( C m , r ( i ) ) N - m + 1
ApEn由如下公式计算:
ApEnm,r=Fm,r-Fm+1,r
(3.3)用频谱分析算法提取数据的能量普特征;
其中,提取频谱分析的算法如下:
对信号源发出的信号强度按频率顺序展开,使其成为频率的函数,并考察变化规律,称为频谱分析。
(3.4)用分析数据的一阶特征算法提取数据的均值、标准差、偏度、和峰度特征;
其中,提取一阶特征的算法如下:对于一阶特征,引入传统的统计特征如,均值(Mean,μ):标准差(Standard Deviation,σ):偏度(Skewness,γ1):在实际应用中,通常将峰度值进行减3处理,使得正态分布的峰度0。峰度(Kurtosis,γ2)
(3.5)用分析数据的二阶特征算法提取时间序列内部的共生关系特征:熵、惯性系数、相关系数和局部同质性;
其中,提取二阶特征的算法如下:将时间序列量化为Q个等级,建立二维矩阵c(i,j)(1≤i,j≤Q),其中点(i,j)代表在序列中,等级i与等级j距离为d1的次数。在得到的二维矩阵的基础上,计算序列的能量(Energy),熵(Entropy),惯性系数(Inertia),相关系数(Correlation(COR))和局部同质性(Local Homogeneity(LH))。
(3.5.1)能量的计算方法如下:
其中,令求熵(Entropy),熵(entropy)指的是体系的混乱的程度。具体计算公式为:
S = &Sigma; i = 1 Q &Sigma; j = 1 Q c ( i , j ) log ( c ( i , j ) )
(3.5.2)求取惯性系数(Inertia),惯性系数计算公式如下:
F = &Sigma; i = 1 Q &Sigma; j = 1 Q ( i - j ) 2 c ( i , j )
(3.5.3)求取相关系数(Correlation(COR)),相关系数主要衡量数据内部的相关关系,计算公式如下:
&rho; x , y = &Sigma; i = 1 Q &Sigma; j = 1 Q ( i - &mu; x ) ( j - &mu; y ) c ( i , j ) &sigma; x &sigma; y
其中 &mu; x = &Sigma; i = 1 Q i &Sigma; j = 1 Q c ( i , j ) Q ,
&mu; y = &Sigma; j = 1 Q j &Sigma; i = 1 Q c ( i , j ) Q &sigma; x 2 = &Sigma; i = 1 Q ( i - &mu; x ) 2 &Sigma; j = 1 Q c ( i , j ) Q , &sigma; y 2 = &Sigma; j = 1 Q ( i - &mu; y ) 2 &Sigma; i = 1 Q c ( i , j ) Q
(3.5.4)求取局部同质性(Local Homogeneity(LH)),同质性(Homogeneity),也叫均匀性,很大程度上关联到时间序列的局部信息,反应局部区域的一致性。计算公式如下:
LH = &Sigma; i = 1 Q &Sigma; j = 1 Q 1 1 + ( i - j ) 2 c ( i , j )
(3.6)用时间序列间的特征算法提取数据的线性相关系数和互相关系数;
其中,时间序列间的特征求取如下:时间序列间的特征包含以下分量:
(3.6.1)线性相关关系(Linear Correlation),相关系数是衡量两个事物相似程度的数字,计算公式如下:
&gamma; 1,2 = E [ ( X 1 ( t ) - E ( X 1 ( t ) ) ( X 2 ( t ) - E ( X 2 ( t ) ) ] Var [ X 1 ( t ) ] &CenterDot; Var [ X 2 ( t ) ]
(3.6.2)互相关系数(Coherence),其计算公式如下:
C 1,2 = &phi; X 1 X 2 [ &phi; X 1 X 1 &phi; X 2 X 2 ] 1 / 2
其中,φX1X2为互谱密度,x1(t)和x2(t)为两个随机信号。
上述一种基于特征提取算法的数据特征分类方法,所述步骤四的特征选择(Feature Selection)也称特征子集选择(Feature Subset Selection,FSS),或属性选择(Attribute Selection),是指从全部特征中选取一个特征子集,使构造出来的模型更好,所述特征子集的选取包括如下步骤:
(4.1)用完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Random)3大类搜索算法从特征全集中产生出一个特征子集;
(4.2)用筛选器(Filter)、封装器(Wrapper)两大类评价函数对该特征子集进行评价;
(4.3)将评价的结果与特征选择的评价标准(停止准则)AUC,F-score进行比较,若评价结果符合停止准则就停止,否则就继续产生下一组特征子集,继续对特征子集进行评价;
(4.4)验证选出来的特征子集的有效性。
上述一种基于特征提取算法的数据特征分类方法,所述步骤五、用数据挖掘算法对特征子集进行分类,其中,对特征子集进行分类的具体步骤为:
(5.1)在病人的生命体征数据的特征稀疏时,核函数SVM要优于线性SVM,具有更好的分类效果,故引入非线性分类器--核函数SVM;
(5.2)核SVM在少量特征时往往比逻辑回归有着更好的结果。然而随着特征的增加,逻辑回归的分类效果在数据集上有着更好的表现。因此,在系统计算复杂程度和分类性能的双重考虑下,我们选择逻辑回归为我们系统的最后选择。
(5.3)考虑到数据类间的不平衡性,再将探索性下采样引入系统中来提高分类效果。
本发明与现有技术相比的有益效果是:本发明公开了一种基于特征提取算法的数据特征分类方法,将一些基于非线性动力学的专用算法用于临床数据分析,在建立模型时考虑到了病人的多元化组合特征集,涉及混沌理论(DFA),信号处理(频谱分析,熵)等多个领域;其次,充分利用时间序列数据中包含着的丰富的信息,解决了以前的工作存在两个主要问题;分类中,采用鲁棒性更好的分类器,如RBF核的SVM等来对医学时间序列进行分类,高了分类器最终的分类效果。本发明通过挖掘无线医疗设备检测的实时的、高频率的病人数据,防止病人临床恶化的同时又为可能出现的死亡提供早期预警,适用性强,提高了工作效率,具有良好的应用前景。
以下将结合附图对本发明做进一步详细说明。
附图说明
图1为本发明流程图。
图2为本发明的特征选择流程图。
具体实施方式
如图1所示,一种基于特征提取算法的系统分类方法,用无线医疗监控(Real-time Data Sensing(RDS))系统采集病人的实时生命体征数据,所述无线医疗监控系统主要靠无线传感器收集病人的实时生命体征数据,所述无线传感器由小型嵌入式无线电设备组成。以心率和血氧饱和度为例,包括如下步骤:
1)将无线传感器夹住病人的食指收集脉搏和血氧饱和度数据;
2)对步骤1)中的心率和血氧饱和度的时间序列,结合正常人的脉搏和血氧饱和度数据,引入特征提取算法,提取单一时间序列特征,两个时间序列之间的特征,其中引入的特征提取算法如下:
(3.1)用趋势波动分析算法获取病人的生命体征脉搏和血氧饱和度数据S-1与正常人的生命体征脉搏和血氧饱和度数据N-1的线性拟合特征数据;
设时间序列为{x(i)},1≤i≤N,定标指数的计算过程如下:
(3.1.1)构造去均值的和序列
Y ( i ) = &Sigma; i = 1 j [ x ( i ) - < x > ] , 1 &le; j &le; N
其中 < x > = 1 N &Sigma; i = 1 N x ( i )
(3.1.2)把和序列Y(i)不重叠地分解成长度为n的不重叠的片段(片段个数Nn≡[N/n])。由于数据长度N不一定是时间尺度n倍,为了不忽视剩余部分数据,从Y(i)的另一端开始重复划分一次,这样一共得到2Nn个片段。
(3.1.3)从每一个片段序列v中去除其趋势Yn(i)=Y(i)-pv(i)。其中趋势pv(i)为第v个片段的拟合多项式,多项式的阶次n可以为1(线性),2(平方),3(立方),甚至更高。
(3.1.4)求2Nn个去趋势片段的均方根,即DFA波动函数
F n 2 ( v ) = < Y n 2 ( i ) > = 1 N &Sigma; i = 1 N Y n 2 [ ( v - 1 ) n + i ]
F ( n ) = 1 2 N &Sigma; v = 1 2 N s F n 2 ( v )
由不同的去趋势阶次n得到的波动函数F(s)表示为F(n)(s)。如果原始序列x(i)为长程幂函数相关的,则波动函数以幂函数增加,F(n)(n)与n的依赖关系为
F(n)(n)∝nα
其中,α(≠1/2)成为定标函数
(3.1.5)以双对数坐标画出F(n)与n的函数关系,并且通过线性拟合计算曲线的斜率,即α的值。将曲线分为两部分,然后对两段曲线分别进行线性拟合,从而得到两段的不同定标函数α1和α2。其中,α1为当1≤n≤φ(N)时,log(F(n))与log(n)拟合所得的曲线的斜率;α2为当φ(N)≤n≤N时,log(F(n))与log(n)拟合所得的曲线的斜率。我们定义φ(N)为N的函数:φ(N)=γ*N。首先从在医院死亡和存活的病人中个采样一部分数据,然后固定γ,得到相应的α1和α2;如此挑选出最有鉴别力的γ。
(3.2)使用了提取近似熵的算法;
近似熵是对非线性时间序列复杂度的一种非负定量描述。将时间序列分割成N-M+1个子序列,计算子序列之间的相似性。在容许偏差r的情况下,计算重构后的矢量平均自相关程度。定义从原始时间序列中进行空间重构后的长度为m的子序列为:
v(n)=[x(n),x(n+1),…,x(n+m-1)],n=1,…,N-m+1
子序列v(i)和v(j)之间的距离定义为序列标量分量之间的最大距离,计算公式如下:
C m , r ( i ) = N m , r ( i ) N - m + 1
其中Nm,r(i)为使得序列v(i)和v(j)距离小于r的向量j的数量。r为容许偏差。Cm,r(i)定义为找到的一个序列,使之与v(i)距离小于r的概率。
对所有子序列的Cm,r(i)概率取对数平均得到:
F m , r = &Sigma; i = 1 N - m + 1 ln ( C m , r ( i ) ) N - m + 1
ApEn由如下公式计算:
ApEnm,r=Fm,r-Fm+1,r
(3.3)使用了提取频谱分析的算法;
对信号源发出的信号强度按频率顺序展开,使其成为频率的函数,并考察变化规律,称为频谱分析。
(3.4)使用了提取一阶特征的算法;
对于一阶特征,引入传统的统计特征如,均值(Mean,μ):标准差(Standard Deviation,σ):偏度(Skewness,γ1):在实际应用中,通常将峰度值进行减3处理,使得正态分布的峰度0。
峰度(Kurtosis,γ2) &gamma; 2 = &Sigma; i = 1 N ( x ( i ) - &mu; ) 4 n&sigma; 4 - 3 .
(3.5)使用了提取二阶特征的算法;
二阶特征是可以描述一维时间序列内部的共生关系特征。将间序列量化为Q个等级,建立二维矩阵c(i,j)(1≤i,j≤Q),其中点(i,j)代表在序列中,等级i与等级j距离为d1的次数。在得到的二维矩阵的基础上,计算序列的能量(Energy),熵(Entropy),惯性系数(Inertia),相关系数(Correlation(COR))和局部同质性(LocalHomogeneity(LH))。
(3.5.1)能量的计算方法如下:
其中,令求取熵,熵(entropy)指的是体系的混乱的程度。具体计算公式为:
S = &Sigma; i = 1 Q &Sigma; j = 1 Q c ( i , j ) log ( c ( i , j ) )
(3.5.2)求取惯性系数,惯性系数计算公式如下:
F = &Sigma; i = 1 Q &Sigma; j = 1 Q ( i - j ) 2 c ( i , j )
(3.5.3)求取相关系数,相关系数主要衡量数据内部的相关关系,计算公式如下:
&rho; x , y = &Sigma; i = 1 Q &Sigma; j = 1 Q ( i - &mu; x ) ( j - &mu; y ) c ( i , j ) &sigma; x &sigma; y
其中 &mu; x = &Sigma; i = 1 Q i &Sigma; j = 1 Q c ( i , j ) Q ,
&mu; y = &Sigma; j = 1 Q j &Sigma; i = 1 Q c ( i , j ) Q &sigma; x 2 = &Sigma; i = 1 Q ( i - &mu; x ) 2 &Sigma; j = 1 Q c ( i , j ) Q , &sigma; y 2 = &Sigma; j = 1 Q ( i - &mu; y ) 2 &Sigma; i = 1 Q c ( i , j ) Q
(3.5.4)求取局部同质性(Local Homogeneity(LH)),同质性(Homogeneity),也叫均匀性,很大程度上关联到时间序列的局部信息,反应局部区域的一致性。计算公式如下:
LH = &Sigma; i = 1 Q &Sigma; j = 1 Q 1 1 + ( i - j ) 2 c ( i , j )
(3.6)求取时间序列间的特征;
时间序列间的特征包含以下分量:
(3.6.1)线性相关关系(Linear Correlation),相关系数是衡量两个事物相似程度的数字,计算公式如下:
&gamma; 1,2 = E [ ( X 1 ( t ) - E ( X 1 ( t ) ) ( X 2 ( t ) - E ( X 2 ( t ) ) ] Var [ X 1 ( t ) ] &CenterDot; Var [ X 2 ( t ) ]
(3.6.2)互相关系数(Coherence),其计算公式如下:
C 1,2 = &phi; X 1 X 2 [ &phi; X 1 X 1 &phi; X 2 X 2 ] 1 / 2
其中,φX1X2为互谱密度,x1(t)和x2(t)为两个随机信号。
3)如图2所示将步骤2)中提取出来的特征进行选择,其具体步骤如下:
(4.1)首先,用完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Random)3大类搜索算法从特征全集中产生出一个特征子集;
(4.2)然后,用筛选器(Filter)、封装器(Wrapper)两大类评价函数对该特征子集进行评价;
(4.3)将评价的结果与特征选择的评价标准(停止准则)AUC,F-score进行比较,若评价结果符合停止准则就停止,否则就继续产生下一组特征子集,继续对特征子集进行评价;
(4.4)验证选出来的特征子集的有效性。
4)将步骤3)中选择出的特征输入到数据挖掘算法中进行分类,具体步骤如下:
(5.1)在病人的生命体征数据的特征稀疏时,核函数SVM要优于线性SVM,具有更好的分类效果,故引入非线性分类器--核函数SVM。
如表1所示,以重症监护病房(ICU)病人的医疗记录数据为例来测试我们的算法。
表1:不同时间序列DFA特征在不同分类器中的分类效果
(5.2)核SVM在少量特征时往往比逻辑回归有着更好的结果。然而随着特征的增加,逻辑回归的分类效果在数据集上有着更好的表现,如表2和表3所示。因此,在系统计算复杂程度和分类性能的双重考虑下,我们选择逻辑回归为我们系统的最后选择。
表2:逻辑回归前向特征选择选择出来的前12个特征
表3:逻辑回归模型中的前10个最高权重变量
(5.3)考虑到数据类间的不平衡性,再将探索性下采样引入系统中来提高分类效果,效果如表4所示:
表4:探索性下采样后的结果(特征选择为基于AUC)
方法 AUC 特异性 敏感度
逻辑回归+所有特征 0.7402 0.9483 0.3646
逻辑回归+所有特征+探索性下采样 0.7767 0.9500 0.4615
逻辑回归+探索性下采样+特征选择 0.8082 0.9473 0.4865
本发明说明书中未做详细描述的内容属于本领域技术人员中的公知技术。以上例举仅仅是对本发明的举例说明,并不构成对本发明的保护范围的限制,凡是与本发明相同或相似的设计均属于本发明的保护范围之内。

Claims (4)

1.一种基于特征提取算法的数据特征分类方法,其特征在于,包括如下步骤:
步骤一、收集正常人的生命体征数据,并构建成数据库N存储;
步骤二、收集病人的生命体征数据S-1;
步骤三、从数据库N中选取与收集的病人的生命体征数据S-1相匹配的正常人的生命体征数据N-1,引入特征提取算法,从病人的生命体征数据S-1的时间特征序列中提取出呼吸、心率、血氧饱和度、血压这四种最有鉴别能力的特征;
步骤四、从提取的全部特征中选取相应的组合特征子集;
步骤五、用数据挖掘算法将选择出的特征子集进行分类。
2.根据权利要求1所述的一种基于特征提取算法的数据特征分类方法,其特征在于:所述步骤三的特征提取算法包括如下步骤:
(3.1)用趋势波动分析算法获取病人的生命体征数据S-1与正常人的生命体征数据N-1的线性拟合特征数据;
(3.2)用近似熵算法描述数据的复杂度特征;
(3.3)用频谱分析算法提取数据的能量普特征;
(3.4)用分析数据的一阶特征算法提取数据的均值、标准差、偏度、和峰度特征;
(3.5)用分析数据的二阶特征算法提取时间序列内部的共生关系特征:熵、惯性系数、相关系数和局部同质性;
(3.6)用时间序列间的特征算法提取数据的线性相关系数和互相关系数。
3.根据权利要求1所述的一种基于特征提取算法的数据特征分类方法,其特征在于:所述步骤四的特征子集的选取包括如下步骤:
(4.1)用完全搜索(Complete),启
发式搜索(Heuristic),随机搜索(Random)3大类搜索算法从步骤三获得的特征全集中产生出一个特征子集;
(4.2)用筛选器(Filter)、封装器(Wrapper)两大类评价函数对该特征子集进行评价;
(4.3)将评价的结果与特征选择的评价标准(停止准则)AUC,F-score进行比较,若评价结果符合停止准则就停止,否则就继续产生下一组特征子集,继续对特征子集进行评价;
(4.4)验证选出来的特征子集的有效性。
4.根据权利要求1所述的一种基于特征提取算法的数据特征分类方法,其特征在于:所述步骤五、用数据挖掘算法对选择出的特征子集进行分类,包括如下步骤:
(5.1)将逻辑回归模型准确度、敏感度和AUC作为评价系统分类性能的准则;
(5.2)引入特征选择和探索性下采样,对选出的特征子集进行分类。
(5.3)考虑到数据类间的不平衡性,再将探索性下采样引入系统中来提高分类效果。
CN201510184753.7A 2015-04-17 2015-04-17 一种基于特征提取算法的数据特征分类方法 Active CN104765846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510184753.7A CN104765846B (zh) 2015-04-17 2015-04-17 一种基于特征提取算法的数据特征分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510184753.7A CN104765846B (zh) 2015-04-17 2015-04-17 一种基于特征提取算法的数据特征分类方法

Publications (2)

Publication Number Publication Date
CN104765846A true CN104765846A (zh) 2015-07-08
CN104765846B CN104765846B (zh) 2018-01-23

Family

ID=53647674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510184753.7A Active CN104765846B (zh) 2015-04-17 2015-04-17 一种基于特征提取算法的数据特征分类方法

Country Status (1)

Country Link
CN (1) CN104765846B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678342A (zh) * 2016-02-24 2016-06-15 江南大学 基于联合偏度的玉米种子高光谱图像波段选择方法
CN106054778A (zh) * 2016-07-22 2016-10-26 北京农业信息技术研究中心 冷链运输过程智能监测采样方法、装置及冷链车辆
CN107910072A (zh) * 2017-12-11 2018-04-13 创业软件股份有限公司 用于治未病的医疗数据挖掘过程中均线趋势参数确定方法
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN109859798A (zh) * 2019-01-21 2019-06-07 桂林电子科技大学 一种细菌中sRNA与其靶标mRNA相互作用的预测方法
CN110420019A (zh) * 2019-07-29 2019-11-08 西安电子科技大学 一种心冲击图信号的深度回归心率估计方法
CN111462911A (zh) * 2020-04-02 2020-07-28 深圳阿拉丁医疗科技有限公司 一种基于大数据和人工智能的预测导致脑中风的血压异常的算法
CN112581193A (zh) * 2021-01-08 2021-03-30 常州微亿智造科技有限公司 一种基于状态转移网络的wti原油价格序列分析方法
CN116936107A (zh) * 2023-09-19 2023-10-24 天津市胸科医院 基于卷积神经网络的心脏数据风险分析方法、系统及介质
CN117556233A (zh) * 2023-12-29 2024-02-13 巢湖学院 一种基于不平衡数据环境下的特征选择系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996196A (zh) * 2014-05-28 2014-08-20 西安电子科技大学 一种基于多变量的dti图像分析方法
US20140257122A1 (en) * 2013-03-08 2014-09-11 Singapore Health Services Pte Ltd System and method of determining a risk score for triage
CN104091177A (zh) * 2014-06-30 2014-10-08 华南理工大学 一种基于确定学习理论的异常步态检测方法
CN104102839A (zh) * 2013-11-16 2014-10-15 西安电子科技大学 一种基于多尺度网格曲面形状特征的阿尔茨海默病脑皮层自动分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257122A1 (en) * 2013-03-08 2014-09-11 Singapore Health Services Pte Ltd System and method of determining a risk score for triage
CN104102839A (zh) * 2013-11-16 2014-10-15 西安电子科技大学 一种基于多尺度网格曲面形状特征的阿尔茨海默病脑皮层自动分类方法
CN103996196A (zh) * 2014-05-28 2014-08-20 西安电子科技大学 一种基于多变量的dti图像分析方法
CN104091177A (zh) * 2014-06-30 2014-10-08 华南理工大学 一种基于确定学习理论的异常步态检测方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678342B (zh) * 2016-02-24 2018-11-30 江南大学 基于联合偏度的玉米种子高光谱图像波段选择方法
CN105678342A (zh) * 2016-02-24 2016-06-15 江南大学 基于联合偏度的玉米种子高光谱图像波段选择方法
CN106054778A (zh) * 2016-07-22 2016-10-26 北京农业信息技术研究中心 冷链运输过程智能监测采样方法、装置及冷链车辆
CN106054778B (zh) * 2016-07-22 2018-11-20 北京农业信息技术研究中心 冷链运输过程智能监测采样方法、装置及冷链车辆
CN107910072A (zh) * 2017-12-11 2018-04-13 创业软件股份有限公司 用于治未病的医疗数据挖掘过程中均线趋势参数确定方法
CN108319987B (zh) * 2018-02-20 2021-06-29 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN109859798A (zh) * 2019-01-21 2019-06-07 桂林电子科技大学 一种细菌中sRNA与其靶标mRNA相互作用的预测方法
CN110420019A (zh) * 2019-07-29 2019-11-08 西安电子科技大学 一种心冲击图信号的深度回归心率估计方法
CN111462911A (zh) * 2020-04-02 2020-07-28 深圳阿拉丁医疗科技有限公司 一种基于大数据和人工智能的预测导致脑中风的血压异常的算法
CN112581193A (zh) * 2021-01-08 2021-03-30 常州微亿智造科技有限公司 一种基于状态转移网络的wti原油价格序列分析方法
CN116936107A (zh) * 2023-09-19 2023-10-24 天津市胸科医院 基于卷积神经网络的心脏数据风险分析方法、系统及介质
CN116936107B (zh) * 2023-09-19 2023-12-22 天津市胸科医院 基于卷积神经网络的心脏数据风险分析方法、系统及介质
CN117556233A (zh) * 2023-12-29 2024-02-13 巢湖学院 一种基于不平衡数据环境下的特征选择系统及方法
CN117556233B (zh) * 2023-12-29 2024-03-26 巢湖学院 一种基于不平衡数据环境下的特征选择系统及方法

Also Published As

Publication number Publication date
CN104765846B (zh) 2018-01-23

Similar Documents

Publication Publication Date Title
CN104765846A (zh) 一种基于特征提取算法的数据特征分类方法
Cui et al. Multi-scale convolutional neural networks for time series classification
CN104523266B (zh) 一种心电信号自动分类方法
Shamrat et al. Implementation of machine learning algorithms to detect the prognosis rate of kidney disease
CN103886336A (zh) 基于稀疏自动编码器的极化sar图像分类方法
CN112784856A (zh) 胸部x射线图像的通道注意力特征提取方法和识别方法
Huang et al. Sparse representation-based heartbeat classification using independent component analysis
CN109431497A (zh) 一种脑电信号处理方法及癫痫检测系统
CN104832418A (zh) 一种基于局部均值变换和Softmax的液压泵故障诊断方法
Dai et al. Generalized entropy plane based on permutation entropy and distribution entropy analysis for complex time series
CN106096571A (zh) 一种基于emd特征提取和稀疏表示的细胞分类方法
Nalband et al. Analysis of knee joint vibration signals using ensemble empirical mode decomposition
Djunaidi et al. Gray level co-occurrence matrix feature extraction and histogram in breast cancer classification with ultrasonographic imagery
CN109033990B (zh) 基于类内类间距离的cnn模型心拍分类方法
CN103839072A (zh) 一种基于朴素贝叶斯分类器的假指纹检测方法
CN105930788A (zh) 非下采样轮廓波和主成分分析相结合的人脸识别方法
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
CN104239895B (zh) 基于特征降维的sar目标鉴别方法
Ahmed et al. Improving prediction of plant disease using k-efficient clustering and classification algorithms
Zhang et al. An outlier detection algorithm based on clustering analysis
CN101667253A (zh) 一种高光谱遥感数据多类别监督分类方法
Dash et al. Learning dependencies among fetal heart rate features using Bayesian networks
Xu et al. Individual identification of electronic equipment based on electromagnetic fingerprint characteristics
Qin et al. Empirical likelihood-based confidence intervals for the sensitivity of a continuous-scale diagnostic test at a fixed level of specificity
Benkő et al. How to find a unicorn: a novel model-free, unsupervised anomaly detection method for time series

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant