CN112037906A - 一种长时生理信号时间序列的样本数据的扩充方法及系统 - Google Patents
一种长时生理信号时间序列的样本数据的扩充方法及系统 Download PDFInfo
- Publication number
- CN112037906A CN112037906A CN202010693658.0A CN202010693658A CN112037906A CN 112037906 A CN112037906 A CN 112037906A CN 202010693658 A CN202010693658 A CN 202010693658A CN 112037906 A CN112037906 A CN 112037906A
- Authority
- CN
- China
- Prior art keywords
- time
- long
- indexes
- physiological signal
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000007774 longterm Effects 0.000 claims abstract description 59
- 238000010801 machine learning Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims description 31
- 238000012216 screening Methods 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000003745 diagnosis Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000692 Student's t-test Methods 0.000 claims description 4
- 208000024891 symptom Diseases 0.000 abstract description 6
- 238000002372 labelling Methods 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 124
- 206010019280 Heart failures Diseases 0.000 description 28
- 238000013145 classification model Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 14
- 238000011160 research Methods 0.000 description 12
- 206010007559 Cardiac failure congestive Diseases 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000001308 synthesis method Methods 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000000747 cardiac effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 210000003403 autonomic nervous system Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000005189 cardiac health Effects 0.000 description 1
- 210000000748 cardiovascular system Anatomy 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002182 neurohumoral effect Effects 0.000 description 1
- 230000001144 postural effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Abstract
本公开提出了一种长时生理信号时间序列的样本数据的扩充方法及系统,主要面向用机器学习方法解决临床应用中的医学标注数据不足问题,包括:选取患者和健康人的与时间尺度无明显关联但有一定差异性的长时生理信号指标;利用不同时间尺度的指标作为不同样本的指标,以进行扩充样本量。本公开扩充出的新样本,均为患者本身的特征数据,因此与传统的方法相比,合成的样本能更好的代表样本的病征。本方法不局限于心电信号,同样可以扩充到其它长时间观测的信号,均属于本专利保护范围。本方法只要是对时间尺度不敏感(但有差异)的指标皆可。
Description
技术领域
本公开属于样本扩充技术领域,尤其涉及一种长时生理信号时间序列的样本数据的扩充方法及系统,是在长时间序列分析中均可用此方法。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
生理信号长时间序列存在样本数据少的问题,例如:在利用心率变异性分析(HRV)对心血管疾病进行诊断、预测工作时经常会遇到样本量不足的问题,这对接下来利用机器学习训练分类模型的分类效果有很大的影响。目前,样本数据合成方法在很多数据处理领域中均有研究。
在处理不均衡数据的方法研究中,随机过抽样是合成新样本数据的最基本的方法。该方法首先随机选择并复制原始样本,然后将新生成样本集合添加进原始样本集合中,得到新的样本集合。新合成的数据是原始数据的简单复制,可能会导致分类器出现过拟合现象。尤其是分类器会对重复的样本产生多条规则,使这些规则过于具体化。
为解决过拟合问题,Chawla N V提出基于人工合成少数类过抽样技术(SMOTE算法)。SMOTE算法的思想是寻找少数类样本的k个同类最近邻样本,随机选择k个最近邻样本中的一个,并在这两个样本之间随机进行线性插值,以此来构造新的样本,较好的解决了样本扩充问题。但是,这种算法在有些情况可能会改变原始数据的分布特点。
在缺失数据的填充的方法研究中,最常用的样本合成方法为均值填充法,这种方法简单快捷,但无法较好的拟合原始数据。还有基于统计学的回归填充,基于数据完整部分来建立回归模型,将含缺失值样本的已知属性代入模型来估计未知属性。此外,利用KNN、决策树、多层感知器、对抗网络等机器学习的填充方法也相继被提出,缺失的属性通常被视为一个训练模型的目标输出,剩余其他完整属性是用于训练和测试的输入特性,算法通常根据数据集的完整部分使用机器学习方法来训练相关模型,在模型中对不完整属性进行估计。
发明人在研究中发现,在医学领域的研究中,用上述的方法模拟出的新样本仅在数值上与患者某些特征值相似,但是却无法真正确定新样本能否真正代表患者的病征,这样的新样本是无法用于医学研究的。
发明内容
为克服上述现有技术的不足,面向用机器学习方法中存在临床应用中的医学标注数据不足问题,本公开提供了一种长时生理信号时间序列的样本数据的扩充方法,扩充出的新样本的特征值均取自于原样本本身,可以有效解决合成样本是否具有实际意义的问题。
为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
一方面,公开了一种长时生理信号时间序列的样本数据的扩充方法,包括:
获取第一长时生理信号时间序列及第二长时生理信号时间序列,并分别进行数据预处理;其中,第一长时生理信号时间序列及第二长时生理信号时间序列为取自不同的样本库的不同类信号数据;
选取第一长时生理信号时间序列和第二长时生理信号时间序列对应的与时间尺度无明显关联且有明显差异性的指标;
使用多时间尺度分析将第一长时生理信号时间序列和第二长时生理信号时间序列按时间尺度分段;
根据指标随时间尺度的变化初步筛选无关联性指标;
验证初步筛选指标与时间尺度无明显关联性及选取指标在不同时间尺度有差异性;
将不同时间尺度的指标作为不同样本的指标进行样本扩充,获得扩充样本集合。
其中,第一长时生理信号时间序列为患者长时生理信号时间序列,第二长时生理信号时间序列为正常受试者长时生理信号时间序列。
进一步的技术方案,所述第一长时生理信号时间序列及第二长时生理信号时间序列的样本据中时长较长、采样率相等,并对长时生理信号时间序列进行标记。
进一步的技术方案,对预处理后的数据计算时间尺度下的长度,时间序列按时间尺度分段,计算每一段序列的指标。
进一步的技术方案,针对所计算的指标分别在时域、频域和非线性域上选取关键指标。
进一步的技术方案,应用多时间尺度分析方法将指标拓展到多个时间尺度上,得到两组样本的不同指标在多个时间尺度上的统计差异,分析中将同一指标在所有段中计算值的平均值作为该指标在该样本中的最终计算结果。
进一步的技术方案,得到两组样本的不同指标在多个时间尺度上的统计差异后,应用student t检验来确定两组数据是否存在显著性差异,根据指标随时间的变化筛选对时间尺度无明显关联性的指标。。
进一步的技术方案,利用其多个不同时间尺度的指标假定为不同样本的指标来合成新的样本,将原样本量扩充。
又一方面,公开了一种长时生理信号时间序列的样本数据的扩充系统,包括:
指标获取模块,被配置为:获取第一长时生理信号时间序列及第二长时生理信号时间序列,并分别进行数据预处理;
选取第一长时生理信号时间序列和第二长时生理信号时间序列对应的与时间尺度无明显关联且有明显差异性的指标;
使用多时间尺度分析将第一长时生理信号时间序列和第二长时生理信号时间序列按时间尺度分段;
根据指标随时间尺度的变化初步筛选无关联性指标;
样本扩充模块,被配置为:验证初步筛选指标与时间尺度无明显关联性及选取指标在不同时间尺度有差异性;
将不同时间尺度的指标作为不同样本的指标进行样本扩充,获得扩充样本集合。
另一方面,公开了一种长时生理信号时间序列的诊断模型的建立方法,包括:
利用一种长时生理信号时间序列的样本数据的扩充方法获得扩充样本量后的样本集,基于该样本集进行分类,建立诊断模型。
以上一个或多个技术方案存在以下有益效果:
传统的样本扩充方法,均是单纯的数值处理,合成的新样本只是在数值上与研究对象的数值相似,但是,本本公开扩充出的新样本,均为患者本身的特征数据,因此与传统的方法相比,合成的样本能更好的代表样本的病征。
本公开技术方案针对长时生理信号时间序列进行样本数据的扩充,充分利用不同时间尺度的指标作为不同样本的指标进行样本扩充,是的所获得数据更加符合要求,便于后续进行训练使用。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例整体方法流程图;
图2为本公开实施例HRV在多时间尺度下的计算流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
本公开的样本扩充方法,扩充出的新样本的特征值均取自于原样本本身,可以有效解决合成样本是否具有实际意义的问题并以该方法在HRV分析中为例加以阐述。
如图1所示,一种长时生理信号时间序列的样本数据的扩充方法,包括:
获取第一长时生理信号时间序列及第二长时生理信号时间序列,并分别进行数据预处理;
选取第一长时生理信号时间序列和第二长时生理信号时间序列对应的与时间尺度无明显关联且有明显差异性的指标;
使用多时间尺度分析将第一长时生理信号时间序列和第二长时生理信号时间序列按时间尺度分段;
根据指标随时间尺度的变化初步筛选无关联性指标;
验证初步筛选指标与时间尺度无明显关联性及选取指标在不同时间尺度有差异性;
将不同时间尺度的指标作为不同样本的指标进行样本扩充,获得扩充样本集合。
其中,第一长时生理信号时间序列为患者长时生理信号时间序列,第二长时生理信号时间序列为正常受试者长时生理信号时间序列。
更为具体的实施例子,参见附图2所示,本实施例公开了一种长时生理信号时间序列的样本数据的扩充方法,包括:
选取中早期需要心率变异性分析的患者和健康人的与时间尺度无明显关联的指标;
利用不同时间尺度的指标作为不同样本的指标,以进行扩充样本量。
使用多时间尺度分析将第一长时生理信号时间序列和第二长时生理信号时间序列按时间尺度分段时,主要是根据倍率关系和计时习惯,在举例中,以5分钟时间分析尺度为起点,依据倍率关系和计时习惯将HRV分析的时间尺度扩展到七个不同的时间尺度上。分别为:5分钟,10分钟,30分钟,1小时,2小时,5小时,10小时。由于预处理后存在数据长度小于20小时的样本,所以本研究的最大时间尺度选定为10小时。
两类长时序列先分段,再计算每一段的指标取平均值,如图2所示,分段后,参见表1-1,每个时间尺度下都有九个指标,判断每个指标随时间尺度的变化趋势,选择随时间尺度没有明显变换趋势的指标,验证后保留符合要求的指标,删掉不符合要求的指标。
具体的,在心率变异性分析研究的多时间尺度研究中,有一些特征与时间尺度关联性很强,但也有一些特征与时间尺度没有明显的关联性,但是,这些与时间尺度无关联性的特征在不同的时间尺度上也是存在一定程度的差异的。本公开方法中,在复杂生理信号数据库PhysioBank选取中早期充血性心力衰竭患者和健康人的与时间尺度无明显关联的指标,利用其不同时间尺度的指标作为不同样本的指标,从而扩充样本量。依据以上方法扩充出的样本集使用基于径向基函数的支持向量机SVM的机器学习算法对数据进行分类,建立一个中早期充血性心衰的诊断模型,取得了良好的效果,有助于对中早期充血性心衰的预防和治疗等工作。
数据预处理:本公开技术方案采用复杂生理信号数据库PhysioBank中的数据。其中的正常心率数据库(Normal Sinus Rhythm RR Interval Database,nsr2db)作为正常人心率的样本来源,其中包含54例正常节律的长时心电信号(30例男性,年龄分布在28.5岁到76岁之间;24例女性,年龄分布在58岁到73岁)。充血性心衰数据库(Congestive HeartFailure RR Interval Database,chf2db)作为心衰患者的样本来源,包含29例伴随心衰症状的长时心电信号(性别比例不详,年龄分布在34岁到79岁之间)。其中有4个NYHA Ⅰ型患者8个NYHA Ⅱ型患者,17个NYHAⅢ型患者。两个数据库中所有RR间期序列的时长在24小时左右,采样率均为128Hz,RR间期序列中所有心拍均已标记。RR间期是指心电信号两个R波之间的时间间隔。
根据RR间期的统计规律,预处理剔除RR间期时间间隔小于0.4秒或大于2.0秒数据点。小于0.4秒可能是在一个正常RR间隔内多检测了一个R峰值点,而大于2.0秒则可能是两个正常RR间隔内漏检测了一个R峰值点。由于需要计算不同时间尺度下的HRV指标,所以要对每段信号进行分段。经过去除异常点的预处理后,得到每段可用的信号长度大概在18-24小时之间,其中删除的异常点数据总时间长度约占全部数据总时间长度的3%。
基于多时间尺度分析的样本扩充:HRV方法与多时间尺度分析:心率变异性(HRV)是指逐次心跳周期差异的变化情况,它含有神经体液因素对心血管系统调节的信息,从而判断其对心血管等疾病的病情及预防,是评估整体心脏健康和负责调节心脏活动的自主神经系统状态的有效工具。
多时间尺度分析广泛应用于自然信号分析领域中,包括气候分析,水文分析,电力系统以及生理信号时间序列分析等。Peng等人讨论了神经生理控制机制的多时间尺度特性,使用心率调节作为模型系统,并发现尺度指数可以用作充血性心力衰竭的预后指标。Chladekova等人在四种时间尺度上计算了三个时间不可逆性指数-Porta's,Guzik's和Ehler's指数(分别为P%,G%和E),并得出了HRV和BPV的时间不可逆性随着体位的改变而显著变化的结论,暗示着自主神经系统在HRV和BPV的调节中扮演重要角色。本公开使用多尺度分析方法计算心电图中RR间期序列在不同时间尺度上的九个指标,用以分析正常和心衰两者的差异。
本公开技术方案分别在时域、频域和非线性域上选取了三个关键指标。时域指标包括MEAN、SDNN和RMSSD,MEAN(ms)为RR间期时间序列的平均值,SDNN(ms)为RR间期时间序列的标准差,RMSSD(ms)为相邻RR间期差值的均方根值,MEAN用于评估RR间期的均值,SDNN用于评估心率整体变异性,RMSSD用于评估心率的短期变异性。频域指标包括LFn、HFn和Ratio-LH,LFn为归一化的低频功率,HFn为归一化的高频功率,Ratio-LH为低频高频能量比,LF/HF。LFn用于评估心率的低频变化部分,HFn用于评估心率的高频变化部分,LF/HF用于低频高频比。非线性域指标包括VAI、VLI和SampEn。VLI为Poincare散点图中的向量长度指标,VAI为Poincare散点图中的向量角度指标,SampEn为样本熵Poincare散点图中的长度向量指标(VLI)反映心率变异中的低频和极低频成分,角度向量指标(VAI)反映心率变异中的高频成分,样本熵(Sample Entropy,SampEn)则反映RR间期时间序列的复杂度。以5分钟时间分析尺度为起点,依据倍率关系和计时习惯将HRV分析的时间尺度扩展到七个不同的时间尺度上。分别为:5分钟,10分钟,30分钟,1小时,2小时,5小时,10小时。由于预处理后存在数据长度小于20小时的样本,所以本公开研究的最大时间尺度选定为10小时。应用多时间尺度分析方法将这九个指标拓展到了七个时间尺度上,得到了心衰和正常两组样本的不同HRV指标在七个时间尺度上的统计差异。分析中将同一指标在所有段中计算值的平均值作为该指标在该样本中的最终计算结果,流程如图1所示。
指标筛选和新样本合成:筛选与时间尺度无关联性的指标,在获得7个时间尺度的NSR和CHF组的HRV测量值后,应用student t检验(独立双样本t检验)来确定两组NSR和CHF数据是否存在显著性差异。在t检验统计量之前,使用Kolmogorov-Smirnov检验来确定两组的HRV指标是否都符合正态分布。使用MATLAB软件(Ver.2014a,MathWorks)进行所有统计分析,以p=0.05为统计显著性阈值。在九个备选指标中,根据指标随时间的变化来筛选对时间尺度无明显关联性的指标作为研究指标。
NSR是指正常受试者,CHF是指心衰患者,其中的正常心率数据库(Normal SinusRhythm RR Interval Database,nsr2db)作为正常人心率的样本来源,其中包含54例正常节律的长时心电信号(30例男性,年龄分布在28.5岁到76岁之间;24例女性,年龄分布在58岁到73岁)。充血性心衰数据库(Congestive Heart Failure RR Interval Database,chf2db)作为心衰患者的样本来源,包含29例伴随心衰症状的长时心电信号(性别比例不详,年龄分布在34岁到79岁之间)。其中有4个NYHAⅠ型患者8个NYHAⅡ型患者,17个NYHAⅢ型患者。
表1七个时间尺度下的HRV指标在心衰组和正常组之间差异水平
表1展示了心衰组和正常组的九个HRV指标在七种时间尺度下的显著性差异水平,表中的每一个统计差异水平p值都表示同一时间尺度下的同一HRV指标在两组样本中的差异表现。从表中可以看出,除SDNN和SampEn外,其他正常人和心衰患者的指标在七个时间尺度均有明显差异性。从表1-1中的九个HRV指标的统计直方图可以看出,随着时间尺度的变化,正常组和心衰组的时域的MEAN指标、相邻RR间期的RMSSD指标、频域的低频功率占比(LFn)、高频功率占比(HFn)以及非线性域的角度向量指标(VAI)没有明显的变化,而其他四个指标随时间尺度的变化都有明显的变化趋势。可以初步认为,MEAN、RMSSD、LFn、HFn、VAI五个指标为与时间尺度无关联性的指标。
表1-1心衰患者和正常受试者的九个HRV指标在七个时间尺度下的均值和标准差
生成新样本:由表1-1可以看出,MEAN、RMSSD、LFn、HFn、VAI五个对时间尺度无关联性的指标在不同时间尺度上数值是存在差异的,利用其七个不同时间尺度的指标假定为不同样本的指标来合成新的样本,将原样本量扩充七倍。
实验验证:本研究以HRV指标为特征空间,利用基于高斯核函数的支持向量机分类算法(RBF-SVM)建立心衰的诊断模型,选取了网格搜索算法来寻找最佳的惩罚系数和和函数参数的组合。模型在Spyder平台中使用Python下的scikit-learn机器学习库构建。本公开使用的数据集采用十折交叉验证方法来评估模型的泛化能力,将十次结果的平均值作为最终的评估结果。
结果比较分析:与未进行样本扩充的单时间尺度的分类模型进行比较:
单时间尺度的分类方法是未进行样本扩充的方法,无需进行本公开的指标筛选,因此可用MEAN、SDNN、RMSSD、LFn、HFn、Ratio-LH、VAI、VLI和SampEn九指标进行分类。在建立分类模型过程中,预处理、机器学习算法等与本公开分类模型完全一致。
表2九指标单时间尺度预测模型与本公开预测模型结果对比
从表2可以看出,单时间尺度在2h时间尺度时分类效果达到最好,而本公开方法的分类效果准对ACC和SE分别提高了5.39%和12.85%。虽然样本扩充减少了可以使用的指标数量,但是却可以得到更好的分类效果。
与不进行样本合成的混合时间尺度的分类模型进行比较:为了验证本公开技术方案的样本合成方法不是单纯的指标数值堆积,与相关所有指标均使用的方法进行比较。这种方法是指不进行样本扩充,将不同时间尺度的指标作为同一样本的不同特征进行分类。在建立分类模型过程中,预处理、机器学习算法等与本公开分类模型完全一致。
本研究中使用了样本在七个时间尺度下五个指标进行分类。如果不进行样本合成,可将七个时间尺度下MEAN、RMSSD、LFn、HFn、VAI五个指标作为样本的35个指标来建立模型。这种35指标堆积的分类模型与本研究中样本合成方法的分类模型的分类效果对比如下表所示。
表3 35指标预测模型与本公开预测模型结果对比
从表3看出,利用35个指标预测和本公开的预测效果对比,进行样本扩充方法三个指标上均有较大提升。
样本扩充倍数的选择:样本扩充倍数越多,理论上分类的准确度应该会提高。我们在研究中发现,当时间尺度划分过细的时候,相邻时间尺度的指标数值会非常相似,并不能提高分类效果,失去了样本扩充的意义。我们选择了不同的时间扩充倍数来进行对比,来选择一个合适的样本扩充倍数。
基于实验室先前研究可知,在2h时间尺度时,分类效果是最好的,并且,由于数据长度有限,在选取长时时间尺度时,会面临数据量不足的问题,因此,在增加时间尺度时,侧重选择在2h中等时长的时间尺度进行扩充。,即5、10、30分钟、1、1.5、2、2.5、3、3.5、4、4.5、5、10小时,从中选择3、5、7、9、11、13作为对比。
表4不同样本量扩充倍数结果对比
各样本使用的时间尺度:
从表4可以看出,将样本量扩充到7倍,分类效果已经接近最优,再对时间尺度进行细分就基本失去意义了,所以在本公开中选择7倍的样本扩充倍数。
与其他样本扩充的方法进行比较,这里与比较经典的样本合成方法smote算法进行比较。由于smote算法只能使用单时间尺度,所以选取分类效果最好的2h时间尺度,使用九指标建立模型。使用smote算法将数据量分别扩充至1到7倍,来与本公开的方法进行对比,选择k近邻数为3。建立分类模型过程中,预处理、机器学习算法等与本公开分类模型完全一致。
表5九指标单时间尺度预测模型与本公开预测模型结果对比
从表5中可以看出,如果不考虑过拟合的情况,使用smote算法扩充样本也可以取得较好的分类效果。
扩充样本恢复原样本验证:对样本进行本公开方法的扩充后训练分类模型,利用训练好的模型对扩充样本进行恢复原样本输入分类来对分类效果进行验证。
对每个样本合成出的七个样本进行标签,在本公开训练好的分类模型重新投入进行分类后,按标签将属于同一原样本的七样本重新进行组合,以七样本投票的方式表决原样本的分类结果。
对合成样本进行原样本还原后,输入至训练好的分类模型进行分类,对模型进行验证,实验结果显示,成功将54例正常人和29例心衰患者全部区分开。证明本公开的分类方法是有效的。
筛选指标的合理性检验:本方法中合成新样本的使用的是原始样本在不同时间尺度下的指标,这在合成新样本之前,就要求必须对其合理性进行验证。第一,如果选择的指标与时间尺度有关联性,在这种情况下,利用不同时间尺度的指标作为不同新样本的指标,就会引入很大的干扰。所以,需要确定与时间尺度无明显关联性的指标。第二,在确定了与时间尺度无明显关联性的指标后,如果这些指标在不同时间尺度下数值十分相似,那么利用这些指标合成的新样本基本等同于复制,这样就失去了合成新样本的意义,所以,还要证明选择的指标在不同时间尺度上数值是有足够的差异的。
验证初筛选指标与时间尺度无关联性:在选择出研究指标后,进一步验证指标与时间尺度无关联性,分别对研究指标和时间尺度做相关性检验,根据其Pearson系数判断其关联性大小。Pearson系数是用来衡量定距变量间的线性关系。其计算公式如下:
其中,相关系数的绝对值越大,相关性越强。相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。通常情况下通过以下取值范围判断变量的相关强度:
表6心衰患者和正常人五个指标与时间尺度相关性分析(Pearson相关性)
从表6可以看出,心衰病人和正常人选取的五个指标其Pearson相关系数均远小于0.02,我们可以得出结论,这五个指标与时间尺度基本无关联性。
证明指标在不同时间尺度的差异性:得到了与时间尺度无明显关联性的指标后,还需证明同一样本同一指标在不同尺度下的数据差异,只有证明这一点,才能保证新合成的样本为有效样本。目前常用的样本合成方法中,经常会选择在相邻的样本连线上进行取值,这样,距离其中一原样本的距离可保证大于该相邻两样本距离的二分之一。如果组内样本间的最大差值(同一样本不同时间尺度)大于组间样本的最小差值的一半,那么,就可以保证样本至少生成出一个有效的新样本。
利用下述公式来证明筛选指标有一定的差异性:
其中,n表示第n个样本,t表示t时间尺度,Sintra表示某一样本一指标各时间尺度间最大差值的平均值(组内距离),Sinter表示各样本一指标各时间尺度间最小差值的平均值,为组间距离,an(t)表示第n个样本t时间尺度下的值,tmin表示最短时间尺度,tmax表示最长时间尺度。。
表7心衰患者和正常人各指标组间和组内差异性比较
从表7可以看出,心衰病人和正常人的组内最大差异均大于组间最小差异的一半,这可以证明,这五个指标在不同时间尺度上数值是有差异的。
这样,就验证实验中使用的五个指标与时间尺度无明显关联性,同时,在不同时间尺度上数值又有一定差异性。进一步可以证实,使用该方法合成的新样本为有效样本。
应用条件:本公开的样本扩充方法是针对HRV分析的指标来进行的,因此本公开的方法不局限于心衰疾病的研究,只要能够找到合适的生理指标,理论上对高血压、冠心病等适用HRV分析的疾病同样适用。
传统的样本扩充方法,都是单纯的数值处理,合成的新样本只是在数值上与研究对象的数值相似,但是,本公开扩充出的新样本,均为患者本身的特征数据,因此与传统的方法相比,合成的样本能更好的代表样本的病征。
约束条件
在本公开研究中发现,当时间尺度划分很细的时候,相邻时间尺度的数据是相似甚至相同的,这就失去了样本扩充的意义,这一点就限制了本公开方法的适用范围,只适用于长时的HRV分析,可用于便携式心电监护设备对早期心衰的预防,或者术后的跟踪观察等长时间的医疗领域。
本方法中合成的新样本均取自于原始样本,究其根本,还是对原始数据的强化使用,在数据量有限的情况下,使用本方法可以充分的利用原始数据训练出更好的模型。
基于同样的发明构思,本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例子中方法的具体步骤。
基于同样的发明构思,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述实施例子中方法的具体步骤。
基于同样的发明构思,本实施例公开了一种生理信号长时间序列的样本数据的扩充系统,包括:
指标获取模块,被配置为:选取中早期需要心率变异性分析的患者和健康人的与时间尺度无明显关联但有一定差异性的指标;
样本量扩充模块,被配置为:利用不同时间尺度的指标作为不同样本的指标,以进行扩充样本量。
另一方面,本实施例公开了一种生理信号长时间序列的样本数据的诊断模型的建立方法,包括:
利用用于心率变异性分析的样本数据的扩充方法获得扩充样本量后的样本集,基于该样本集使用基于径向基函数的支持向量机SVM的机器学习算法对样本集数据进行分类,建立诊断模型。
以上实施例的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。
本领域技术人员应该明白,上述本公开的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种长时生理信号时间序列的样本数据的扩充方法,其特征是,包括:
获取第一长时生理信号时间序列及第二长时生理信号时间序列,并分别进行数据预处理,其中,第一长时生理信号时间序列及第二长时生理信号时间序列为取自不同的样本库的不同类信号数据;
选取第一长时生理信号时间序列和第二长时生理信号时间序列对应的与时间尺度无明显关联且有明显差异性的指标;
使用多时间尺度分析将第一长时生理信号时间序列和第二长时生理信号时间序列按时间尺度分段;
根据指标随时间尺度的变化初步筛选无关联性指标;
验证初步筛选指标与时间尺度无明显关联性及选取指标在不同时间尺度有差异性;
将不同时间尺度的指标作为不同样本的指标进行样本扩充,获得扩充样本集合。
2.如权利要求1所述的一种长时生理信号时间序列的样本数据的扩充方法,其特征是,所述第一长时生理信号时间序列及第二长时生理信号时间序列的样本据中采集方法相同,并对长时生理信号时间序列进行标记。
3.如权利要求1所述的一种长时生理信号时间序列的样本数据的扩充方法,其特征是,对预处理后的数据计算时间尺度下的长度,时间序列按时间尺度分段,计算每一段序列的指标。
4.如权利要求1所述的一种长时生理信号时间序列的样本数据的扩充方法,其特征是,针对所计算的指标分别在时域、频域和非线性域上选取关键指标。
5.如权利要求1所述的一种长时生理信号时间序列的样本数据的扩充方法,其特征是,应用多时间尺度分析方法将指标拓展到多个时间尺度上,得到两组样本的不同指标在多个时间尺度上的统计差异,分析中将同一指标在所有段中计算值的平均值作为该指标在该样本中的最终计算结果。
6.如权利要求5所述的一种长时生理信号时间序列的样本数据的扩充方法,其特征是,得到两组样本的不同指标在多个时间尺度上的统计差异后,应用student t检验来确定两组数据是否存在显著性差异,根据指标随时间的变化筛选对时间尺度无明显关联性的指标。
8.一种长时生理信号时间序列的样本数据的扩充系统,其特征是,包括:
指标获取模块,被配置为:获取第一长时生理信号时间序列及第二长时生理信号时间序列,并分别进行数据预处理,其中,第一长时生理信号时间序列及第二长时生理信号时间序列为取自不同的样本库的不同类信号数据;
选取第一长时生理信号时间序列和第二长时生理信号时间序列对应的与时间尺度无明显关联且有明显差异性的指标;
使用多时间尺度分析将第一长时生理信号时间序列和第二长时生理信号时间序列按时间尺度分段;
根据指标随时间尺度的变化初步筛选无关联性指标;
样本扩充模块,被配置为:验证初步筛选指标与时间尺度无明显关联性及选取指标在不同时间尺度有差异性;
将不同时间尺度的指标作为不同样本的指标进行样本扩充,获得扩充样本集合。
9.一种长时生理信号时间序列的诊断模型的建立方法,其特征是,包括:
利用权利要求1-9任一所述的一种长时生理信号时间序列的样本数据的扩充方法获得扩充样本量后的样本集,基于该样本集使用机器学习算法对样本集数据进行分类,建立诊断模型。
10.一种诊断模型,其特征是,采用权利要求9所述的长时生理信号时间序列的诊断模型的建立方法建立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010693658.0A CN112037906A (zh) | 2020-07-17 | 2020-07-17 | 一种长时生理信号时间序列的样本数据的扩充方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010693658.0A CN112037906A (zh) | 2020-07-17 | 2020-07-17 | 一种长时生理信号时间序列的样本数据的扩充方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112037906A true CN112037906A (zh) | 2020-12-04 |
Family
ID=73579192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010693658.0A Pending CN112037906A (zh) | 2020-07-17 | 2020-07-17 | 一种长时生理信号时间序列的样本数据的扩充方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112037906A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579130A (zh) * | 2022-11-10 | 2023-01-06 | 中国中医科学院望京医院(中国中医科学院骨伤科研究所) | 一种患者肢体功能的评估方法、装置、设备及介质 |
CN117643461A (zh) * | 2024-01-30 | 2024-03-05 | 吉林大学 | 基于人工智能的心率智能监测系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104115144A (zh) * | 2011-12-12 | 2014-10-22 | 安大略理工大学 | 用于多维时域和相关数据挖掘框架、分析和子分组的系统、方法和计算机程序 |
CN104382582A (zh) * | 2014-11-10 | 2015-03-04 | 哈尔滨医科大学 | 一种对动态心电数据进行分类的装置 |
CN106326644A (zh) * | 2016-08-16 | 2017-01-11 | 沈阳东软熙康医疗系统有限公司 | 一种心率变异性参数及疲劳度指标的计算方法及装置 |
US20170127994A1 (en) * | 2014-02-17 | 2017-05-11 | Societe Codesna | Method and system for monitoring the autonomic nervous system of a subject |
-
2020
- 2020-07-17 CN CN202010693658.0A patent/CN112037906A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104115144A (zh) * | 2011-12-12 | 2014-10-22 | 安大略理工大学 | 用于多维时域和相关数据挖掘框架、分析和子分组的系统、方法和计算机程序 |
US20170127994A1 (en) * | 2014-02-17 | 2017-05-11 | Societe Codesna | Method and system for monitoring the autonomic nervous system of a subject |
CN104382582A (zh) * | 2014-11-10 | 2015-03-04 | 哈尔滨医科大学 | 一种对动态心电数据进行分类的装置 |
CN106326644A (zh) * | 2016-08-16 | 2017-01-11 | 沈阳东软熙康医疗系统有限公司 | 一种心率变异性参数及疲劳度指标的计算方法及装置 |
Non-Patent Citations (2)
Title |
---|
BAIYANG HU ETAL: "Multiple Time Scales Analysis for Identifying Congestive Heart Failure Based on Heart Rate Variability", IEEE ACCESS, pages 17862 - 17870 * |
郑伊能: "基于心音的慢性心力衰竭分期诊断方法研究", 中国博士学位论文全文数据库 医药卫生科技辑, pages 1 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579130A (zh) * | 2022-11-10 | 2023-01-06 | 中国中医科学院望京医院(中国中医科学院骨伤科研究所) | 一种患者肢体功能的评估方法、装置、设备及介质 |
CN115579130B (zh) * | 2022-11-10 | 2023-03-14 | 中国中医科学院望京医院(中国中医科学院骨伤科研究所) | 一种患者肢体功能的评估方法、装置、设备及介质 |
CN117643461A (zh) * | 2024-01-30 | 2024-03-05 | 吉林大学 | 基于人工智能的心率智能监测系统及方法 |
CN117643461B (zh) * | 2024-01-30 | 2024-04-02 | 吉林大学 | 基于人工智能的心率智能监测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nogueira et al. | Classifying heart sounds using images of motifs, MFCC and temporal features | |
Sopic et al. | Real-time event-driven classification technique for early detection and prevention of myocardial infarction on wearable systems | |
Übeyli | ECG beats classification using multiclass support vector machines with error correcting output codes | |
Altan et al. | A new approach to early diagnosis of congestive heart failure disease by using Hilbert–Huang transform | |
Burrello et al. | An ensemble of hyperdimensional classifiers: Hardware-friendly short-latency seizure detection with automatic iEEG electrode selection | |
Sharma et al. | Accurate automated detection of congestive heart failure using eigenvalue decomposition based features extracted from HRV signals | |
Mahajan et al. | Improved detection of congestive heart failure via probabilistic symbolic pattern recognition and heart rate variability metrics | |
Xie et al. | Classification of ventricular tachycardia and fibrillation using fuzzy similarity-based approximate entropy | |
Vanitha et al. | Hybrid SVM classification technique to detect mental stress in human beings using ECG signals | |
CN113343805A (zh) | 一种基于rr间期心电数据和集成学习的房颤节律识别方法 | |
CN116503673B (zh) | 一种基于心电图的心律失常识别检测方法及系统 | |
à Mougoufan et al. | Adaptive ECG beat classification by ordinal pattern based entropies | |
CN112037906A (zh) | 一种长时生理信号时间序列的样本数据的扩充方法及系统 | |
Karimifard et al. | A robust method for diagnosis of morphological arrhythmias based on Hermitian model of higher-order statistics | |
Prakash et al. | A system for automatic cardiac arrhythmia recognition using electrocardiogram signal | |
Kong et al. | Use of modified sample entropy measurement to classify ventricular tachycardia and fibrillation | |
Hassan et al. | Performance comparison of CNN and LSTM algorithms for arrhythmia classification | |
Moridani et al. | A review of the methods for sudden cardiac death detection: A guide for emergency physicians | |
Vandendriessche et al. | A framework for patient state tracking by classifying multiscalar physiologic waveform features | |
Gu et al. | Detecting epileptic seizures via non-uniform multivariate embedding of EEG signals | |
Aligholipour et al. | Silent paroxysmal atrial fibrillation detection by neural networks based on ECG records | |
Berg et al. | Comparison of features characterizing beat-to-beat time series | |
Vimalajeewa et al. | A Method for Detecting Murmurous Heart Sounds based on Self-similar Properties | |
Lee et al. | Comparative neural network based on template cluster for automated abnormal beat detection in electrocardiogram signals | |
Zhang et al. | Evaluation of single-lead ECG signal quality with different states of motion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |