CN110739085A - 一种用Apriori算法识别短期单导联心电图心房颤动的方法 - Google Patents

一种用Apriori算法识别短期单导联心电图心房颤动的方法 Download PDF

Info

Publication number
CN110739085A
CN110739085A CN201910968233.3A CN201910968233A CN110739085A CN 110739085 A CN110739085 A CN 110739085A CN 201910968233 A CN201910968233 A CN 201910968233A CN 110739085 A CN110739085 A CN 110739085A
Authority
CN
China
Prior art keywords
data
abnormal data
normal
atrial fibrillation
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910968233.3A
Other languages
English (en)
Inventor
杨新武
唐艺奇
张宇豪
陈瀚赓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910968233.3A priority Critical patent/CN110739085A/zh
Publication of CN110739085A publication Critical patent/CN110739085A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本发明公开了一种用Apriori算法识别短期单导联心电图心房颤动的方法,具体采用了一种基于Apriori算法的数据挖掘算法,用来从短期单导联心电图中识别房颤。本发明提出的算法基于Bin等人提出的37个特征,利用数据挖掘的思想,进行与房颤强关联的重要特征的筛选,用关联规则识别房颤,不仅提高了识别精度,而且为临床医师的房颤检测提供了客观的参考。在来自2017 PhysioNet/CinC Challenge数据集上采用10交叉进行了实验,数据库中共包含8528组心电数据,在识别房颤类别的F1平均分数约为0.94,而Bin等人的算法中,房颤类别的F1平均分数约为0.78,可以证明本文算法的有效性。

Description

一种用Apriori算法识别短期单导联心电图心房颤动的方法
技术领域
本发明属于生物医学工程领域。具体是心电图智能检测方面,利用短时单导联心电图对非正常数据进行自动化智能检测。
背景技术
在以往的研究中,检测房颤所用算法各异。Xiong等人设计了16层一维卷积神经网络(CNN)来对ECG进行分类。所提出的CNN的关键进步之一是采用跳过连接来提高整个网络中的信息传输速率,对AF的预测准确率达到了82%。
Figure BDA0002231223110000011
等人采用两步SVM方法,然后使用简单的基于阈值的规则进行数据分类。在第一步中,各种特征来自单独的节拍,其输出用于计算描述整个ECG的全局特征。然后使用这些特征来训练第二分类模型,并利用交叉验证技术进行评估,最终对AF的预测准确率达到了81%。Teijeiro等人构建了两个分类器:其中一个利用XGboost算法全局评估每个记录特征的聚合值,另一个利用回归神经网络(RNN)将记录评估为序列,并为每个检测到的心跳提供单独的特征。最终将两个分类器使用堆叠技术结合起来,对AF的预测准确率达到了83%。Zabihi等人采用袋装决策树集成(BDTE)算法,从491种手工提取的特征中最终选择出150种特征,用随机森林分类器进行分类,对AF的预测准确率达到了83%。
除上述研究外,Bin等人强调了基于P波和RR间期特征的多维度特征分析,最终提取了30个手工特征,用袋装决策树分析了特征有效性,并利用AdaBoosted决策树集成(ADTE)算法进行分类,对AF的预测准确率达到了82%。
可以看出,在上述算法中,一些研究基于神经网络,无需提取手工特征,但训练模型需要数据量较大、消耗资源较多、计算复杂性较大、耗时较长。而其他研究基于大量手工提取特征(79~491个不等),虽然可以筛选出重要特征,但模型算法较为繁琐,训练复杂度依然较高。
在经过手工特征提取重要性分析后可以发现,多数特征对分类贡献,尤其是对AF的分类贡献较小,如果不加甄别和挑拣盲目将所有特征放入分类器,则很容易导致因为冗余特征过多而导致的过拟合现象;在这个意义上,减少相关特征数量,可以在一定程度上避免过拟合。本发明采用频繁项集的数据挖掘算法,目的在于从已有的几十个手工特征中筛选出由有效特征组成的频繁项集,并以此作为AF的分类依据。本方法所用算法计算复杂度低、准确率高,除了针对性地降低了其他方法过拟合的缺陷外,还挖掘出了各个特征之间的关联,找到了和AF预测结果具有强关联的特征,降低对特征数目的需求,从而可以以更少的特征测试成本代价,对AF的检测和医师的诊断提供及时、客观和稳定的帮助。
发明内容
针对现有技术中存在的上述问题,本发明提出一种用Apriori算法识别短期单导联心电图心房颤动的方法。对于短期单导联心电图数据的房颤检测,本发明提出的方法整体思路是,先筛选出非正常数据和正常数据范围的阈值并将无效特征删除,然后将所有特征进行归一化,接着确定支持度,并用Apriori算法进行频繁项集的筛选,挖掘强关联规则,最后用k交叉法计算F1分数,将测试数据所得结果取平均作为评价模型的指标。本方法所指的正常数据或非正常数据指的是医学标准定义的心房颤动标准数据范围,若在标准范围内视为正常数据,若不在标准范围内视为非正常数据。
一种用Apriori算法识别短期单导联心电图心房颤动的方法,该方法的实施过程如下,
步骤1、筛选采集的非正常数据和正常数据阈值:
判断每项非正常数据是否正常,以及该项非正常数据满足条件,需要筛选出非正常数据和正常数据的阈值;
正常数据的阈值的筛选方法如下:
首先找到非正常数据和正常非正常数据的平均值,并判断两者的大小,大的非正常数据的平均值取下限为阈值,小的非正常数据的平均值取上限为阈值。
接着将非正常数据和正常非正常数据按照从小到大排序,阈值为该排序的序列98%处。如果该序列98%处超过了平均值,则以平均值为阈值,并计算到达平均值处的数据占总数据的百分比,若小于60%则判断为无效参数。
步骤2、进行归一化:
在寻找完阈值之后,需要判断数据中每项数据满足阈值的数量,将每组数据满足阈值的序号所存储,并将该序号放入进向量里。
步骤3、利用Apriori算法进行频繁项集的筛选:
为了挖掘特征的内部关系,采用数据挖掘的方法挖掘频繁项集,这里基于数据挖掘中经典的Apriori算法编写了项目中使用的AP算法,找到频繁集,挖掘强关联规则。
步骤4、根据所筛选出来的频繁项集以及k交叉法进行F1的计算。
先将样本随机分组,使正常数据的采集数据与非正常数据的数据相近,并记录组数;
根据:
TP:是非正常数据,同时根据预测器预测后为非正常数据;
FN:是非正常数据,但是根据预测器预测后表示不是非正常数据;
TN:是正常数据,同时根据预测器预测后表示也是正常数据;
FN:是正常数据,但是根据预测器预测后表示是非正常数据。
Figure BDA0002231223110000041
计算出一组的F1并重复k次,将k次的F1取平均,得到最终的F1结果。
与现有技术相比,本发明具有以下优势:
(1)、模型训练速度较快:与现有的机器学习方法相比,本方法采用的频繁项集的算法计算量小,训练模型所用时间远远少于决策树、随机森林、卷积神经网络(CNN)等;
(2)、对于临床医学的指导意义:与卷积神经网络(CNN)不同,本模型不仅可以满足分类的基本要求,而且挖掘出了特征之间的关联关系,且给出了各类数据的各项特征的参考取值范围,供参考;
(3)、分类准确率较高:本方法采用频繁项集算法,仅用三个特征作为判断依据,所得结果与决策树集成等方法效果类似,可以证明本文模型有效地控制了其他研究中可能存在的过拟合现象。
附图说明
图1为排序后的2号特征阈值选定过程示意;
图2为排序后的7号特征阈值选定过程示意;
图3为特征归一化结果;
图4为各支持度下频繁项集中元素个数;
图5为本方法与Bin等人方法的房颤类F1分数对比。
具体实施方式
下面将结合附图和实例对发明做进一步说明。
图1为有效特征(以2号特征为例)的所有房颤类和正常数据样本特征值排序后的取值分布、平均值和阈值;
图2为无效特征(以7号特征为例)的所有房颤类和正常数据样本特征值排序后的取值分布、平均值和阈值;
图3为全部37个特征在阈值置信度为98%时的归一化结果;
图4为预先设定阈值置信度为98%的情况下,在频繁项集支持度分别为550、600、650、700时筛选出的频繁项集的元素个数;
图5为相同训练集和测试集下本方法和Bin等人提出的方法训练的分类器在非正常数据类别上的F1分数上的实验结果对比及5次实验结果的F1分数平均值。

Claims (2)

1.一种用Apriori算法识别短期单导联心电图心房颤动的方法,其特征在于:该方法的实施过程如下,
步骤1、筛选采集的非正常数据和正常数据阈值:
判断每项非正常数据是否正常,以及该项非正常数据满足条件,需要筛选出非正常数据和正常数据的阈值;
步骤2、进行归一化:
在寻找完阈值之后,需要判断数据中每项数据满足阈值的数量,将每组数据满足阈值的序号所存储,并将该序号放入进向量里;
步骤3、利用Apriori算法进行频繁项集的筛选:
为了挖掘特征的内部关系,采用数据挖掘的方法挖掘频繁项集,这里基于数据挖掘中经典的Apriori算法编写了项目中使用的AP算法,找到频繁集,挖掘强关联规则;
步骤4、根据所筛选出来的频繁项集以及k交叉法进行F1的计算;
先将样本随机分组,使正常数据的采集数据与非正常数据的数据相近,并记录组数;
根据:
TP:是非正常数据,同时根据预测器预测后为非正常数据;
FN:是非正常数据,但是根据预测器预测后表示不是非正常数据;
TN:是正常数据,同时根据预测器预测后表示也是正常数据;
FN:是正常数据,但是根据预测器预测后表示是非正常数据;
Figure FDA0002231223100000011
计算出一组的F1并重复k次,将k次的F1取平均,得到最终的F1结果。
2.根据权利要求1所述的一种用Apriori算法识别短期单导联心电图心房颤动的方法,其特征在于:正常数据的阈值的筛选方法如下:
首先找到非正常数据和正常非正常数据的平均值,并判断两者的大小,大的非正常数据的平均值取下限为阈值,小的非正常数据的平均值取上限为阈值;
接着将非正常数据和正常非正常数据按照从小到大排序,阈值为该排序的序列98%处;如果该序列98%处超过了平均值,则以平均值为阈值,并计算到达平均值处的数据占总数据的百分比,若小于60%则判断为无效参数。
CN201910968233.3A 2019-10-12 2019-10-12 一种用Apriori算法识别短期单导联心电图心房颤动的方法 Pending CN110739085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910968233.3A CN110739085A (zh) 2019-10-12 2019-10-12 一种用Apriori算法识别短期单导联心电图心房颤动的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910968233.3A CN110739085A (zh) 2019-10-12 2019-10-12 一种用Apriori算法识别短期单导联心电图心房颤动的方法

Publications (1)

Publication Number Publication Date
CN110739085A true CN110739085A (zh) 2020-01-31

Family

ID=69268737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910968233.3A Pending CN110739085A (zh) 2019-10-12 2019-10-12 一种用Apriori算法识别短期单导联心电图心房颤动的方法

Country Status (1)

Country Link
CN (1) CN110739085A (zh)

Similar Documents

Publication Publication Date Title
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
Kropf et al. ECG classification based on time and frequency domain features using random forests
CN106923846B (zh) 一种心理压力评估与反馈系统
CN108511055B (zh) 基于分类器融合及诊断规则的室性早搏识别系统及方法
CN106202891B (zh) 一种面向医疗质量评价的大数据挖掘方法
CN111000553B (zh) 一种基于投票集成学习的心电数据智能分类方法
CN109273096B (zh) 一种基于机器学习的药品风险分级评估方法
CN110459292B (zh) 一种基于聚类和pnn的药品风险分级方法
CN113288157A (zh) 基于深度可分离卷积和改进损失函数的心律失常分类方法
CN112699793A (zh) 一种基于随机森林的疲劳驾驶检测优化识别方法
CN116011894A (zh) 一种铝合金棒生产数据管理系统
CN113889252B (zh) 基于生命体征大数据聚类核心算法和区块链的远程互联网大数据智慧医疗系统
CN108229592A (zh) 基于gmdh神经元网络的离群点检测方法及装置
CN116348042A (zh) 用於量化注意力的方法及系統
Suzuki et al. MASC: Automatic sleep stage classification based on brain and myoelectric signals
CN114822823A (zh) 基于云计算和人工智能的融合多维度医疗数据的肿瘤精细分类系统
Ingle et al. Lung Cancer Types Prediction Using Machine Learning Approach
CN109685133A (zh) 基于构建的预测模型低成本、高区分度的数据分类方法
CN110739085A (zh) 一种用Apriori算法识别短期单导联心电图心房颤动的方法
CN113707320A (zh) 一种基于相关性分析的en结合mpa-svm的异常体征矿工判别方法
CN103632162B (zh) 一种疾病相关的心电图特征选择方法
CN114120296B (zh) 高速铁路调度员疲劳程度定量分级方法及装置
CN108960113A (zh) 一种基于支持向量机的心率变异性识别方法
CN114366116A (zh) 一种基于Mask R-CNN网络及心电图的参数获取方法
CN111354458B (zh) 基于通用绘图任务的触控交互运动用户特征提取方法和辅助疾病检测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200131