CN108030494B - 基于交叉验证的心电信号错误标记训练样本识别方法 - Google Patents
基于交叉验证的心电信号错误标记训练样本识别方法 Download PDFInfo
- Publication number
- CN108030494B CN108030494B CN201711088016.2A CN201711088016A CN108030494B CN 108030494 B CN108030494 B CN 108030494B CN 201711088016 A CN201711088016 A CN 201711088016A CN 108030494 B CN108030494 B CN 108030494B
- Authority
- CN
- China
- Prior art keywords
- electrocardiosignal
- error flag
- sampled data
- sample
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012549 training Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000002790 cross-validation Methods 0.000 title claims abstract description 26
- 238000010801 machine learning Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 230000009467 reduction Effects 0.000 claims abstract description 10
- 238000007635 classification algorithm Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 9
- 230000000877 morphologic effect Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000003399 chemotactic effect Effects 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 235000015170 shellfish Nutrition 0.000 claims 1
- 208000019622 heart disease Diseases 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010042434 Sudden death Diseases 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 206010003119 arrhythmia Diseases 0.000 description 1
- 230000006793 arrhythmia Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/318—Heart-related electrical modalities, e.g. electrocardiography [ECG]
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/318—Heart-related electrical modalities, e.g. electrocardiography [ECG]
- A61B5/346—Analysis of electrocardiograms
- A61B5/349—Detecting specific parameters of the electrocardiograph cycle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
- G06F2218/04—Denoising
- G06F2218/06—Denoising by applying a scale-space analysis, e.g. using wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
- G06F2218/10—Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
- G06F2218/14—Classification; Matching by matching peak patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2552—Combination of methods, e.g. classifiers, working on different input data, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Cardiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Surgery (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Heart & Thoracic Surgery (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Physiology (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Psychiatry (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明公开了一种基于交叉验证的心电信号错误标记训练样本识别方法,包括以下步骤:一、对心电信号采样数据进行预处理,并对预处理后的心电信号采样数据进行特征提取;二、对心电信号采样数据提取出来的特征进行标准化处理,并对标准化后的特征进行PCA降维;三、利用交叉验证和多种机器学习分类算法对心电信号采样数据进行错误标记识别;四、将识别出的带有错误标记的心电信号采样数据从训练集中移除,再训练分类器,并对测试集进行分类。所述方法能够有效地识别出心电信号训练样本中的错误标记样本,进而提高心电信号自动分类的准确率。
Description
技术领域
本发明涉及生物医学信息处理领域,具体涉及一种基于交叉验证的心电信号错误标记训练样本识别方法。
背景技术
近年来,心脏疾病已经越来越成为威胁人类生命安全的关键问题,如何能够尽早地检测出心脏疾病是解决该问题的核心所在,因为心脏疾病很容易引发猝死,这样的情况造成了心脏疾病的检测往往比治疗更加迫在眉睫。随着计算机技术的发展,利用机器学习算法对心电信号进行自动分析并做出诊断已经得到了广泛的应用,但在心电信号的自动分析中,错误标记样本是广泛存在的,其原因可能是因为专家的诊断失误,也有可能是在预处理或特征提取等阶段出现误差等等。这些错误标记样本会对分类器产生负面影响,影响分类器的建立,进而降低分类的准确率,使得实际临床辅助诊断可靠性下降。
在机器学习领域,解决训练中样本错误标记问题的办法一般有两种:(1)识别出这些错误标记的样本并将其移出训练集;(2)设计能够抵抗这些错误标记干扰的更好的分类器。本发明基于交叉验证的心电信号错误标记训练样本识别方法采用方法(1),并结合时域特征和形态学特征对心拍的特点进行识别,其中时域特征可以反映心拍最基本的心率特点,形态学特征则详细反映了心拍电特性的全貌。时域特征和形态学特征的结合可以较为准确地表示一个心拍的关键特点。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于交叉验证的心电信号错误标记样本识别方法,所述方法利用交叉验证的方法和多种机器学习算法对心电信号中的错误标记样本进行识别,并将识别出来的错误标记样本移除,进而提高了心电信号自动分类的准确率。
本发明的目的可以通过如下技术方案实现:
一种基于交叉验证的心电信号错误标记训练样本识别方法,所述方法包括以下步骤:
一、对心电信号采样数据进行预处理,并对预处理后的心电信号采样数据进行特征提取;
二、对心电信号采样数据提取出来的特征进行标准化处理,并对标准化后的特征进行PCA降维,将降维后的心电信号采样数据作为训练集;
三、利用交叉验证和多种机器学习分类算法对训练集中的心电信号采样数据进行错误标记识别;
四、将识别出的带有错误标记的心电信号采样数据从训练集中移除,再重新训练分类器,并对测试集进行分类。
进一步地,所述对心电信号采样数据进行预处理具体包括:利用中值滤波方法对心电信号采样数据进行处理以去除基线漂移,再对中值滤波后的心电信号采样数据利用小波变换方法去除工频干扰。即心电信号采样数据序列中一点的值用该点的一个邻域中各点值的中值代替,从而达到去除基线漂移的目的,对中值滤波后的心电信号采样数据进行小波变换,使得50Hz/60Hz的工频干扰和有用心电信号的主要能量落在不同尺度上,从而到达去除工频干扰的目的。
进一步地,所述对预处理后的心电信号采样数据进行特征提取的步骤具体包括:利用小波变换方法检测预处理后的心电信号采样数据中每个心拍的R波峰值位置,对心电信号采样数据依据R波峰值位置进行心拍分割,并检测出每个心拍的Q波起始位置和S波终止位置,进而提取出所需的时域特征,即每个心拍的QRS波持续时间、R-R间隔(该心拍的R波峰值点和上一个心拍R波峰值点之间的时间间隔)以及平均R-R间隔(该心拍之前的10个心拍的平均R-R间隔);同时将每个心拍的数据值统一化处理为300个数据值,以代表每个心拍的形态学特征。
进一步地,所述对心电信号采样数据提取出来的特征进行标准化处理的具体过程为:将提取出来的3个时域特征和300个形态学特征共303个特征利用最小最大标准化方法化为0~1之间的数值,从而使得两种不同的特征对分类方案的作用力同趋化。
进一步地,所述对标准化后的特征进行PCA降维是将标准化后的特征的维数降到包含原始特征信息的95%的维数。
进一步地,所述步骤三的具体过程为:将带有错误标记样本的训练集随机等分为10份,每次选取其中1份作为验证集,剩下9份作为小训练集用于训练多种机器学习分类器,并对验证集进行分类,分类结果和验证集原来的标记进行对比,找出错误标记样本;重复以上过程10次,每次选取的验证集都不同,以保证训练集中所有样本都被验证;找出训练集中所有的错误标记样本后,将其从训练集中移除,得到新的训练集,再重新训练分类器,并在测试集上进行测试。
进一步地,所述多种机器学习分类器采用多种机器学习分类算法训练得到,包括朴素贝叶斯算法、线性判别分析、最近邻法则、支持向量机以及决策树算法,当5种算法中有4种以上认为某个样本为错误标记样本的话,模型判断该样本为错误标记样本,其中,模型对样本的判断能够重复多次,以增加可靠性。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明采用多种机器学习算法对包含错误标记样本的心电信号训练集进行交叉验证,识别率很高,误识率较低,能够有效地将训练集中的错误标记样本剔除,从而提高心电信号分类准确率。
2、本发明基于交叉验证的心电信号错误标记训练样本识别方法改善了由于训练集中存在错误标记样本而导致分类器分类准确率下降的问题,在错误标记样本占比不高于20%的情况下,可以使得分类准确率回升到和没有错误标记样本非常接近的水平。
附图说明
图1为本发明实施例基于交叉验证的心电信号错误标记样本识别方法的流程图。
图2为本发明实施例正常心电周期波形示意图。
图3为本发明实施例利用交叉验证和多种机器学习分类算法对训练集中的心电信号采样数据进行错误标记识别的具体示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种基于交叉验证的心电信号错误标记样本识别方法,所述方法的流程图如图1所示,包括以下步骤:
一、对心电信号采样数据进行预处理,并对预处理后的心电信号采样数据进行特征提取;
其中预处理具体包括:利用中值滤波方法对心电信号采样数据进行处理以去除基线漂移,再对中值滤波后的心电信号采样数据利用小波变换方法去除工频干扰。即心电信号采样数据序列中一点的值用该点的一个邻域中各点值的中值代替,从而达到去除基线漂移的目的,对中值滤波后的心电信号采样数据进行小波变换,使得50Hz/60Hz的工频干扰和有用心电信号的主要能量落在不同尺度上,从而到达去除工频干扰的目的。对预处理后的心电信号采样数据进行特征提取的步骤具体包括:利用小波变换方法检测预处理后的心电信号采样数据中每个心拍的R波峰值位置,对心电信号采样数据依据R波峰值位置进行心拍分割,并检测出该心拍的Q波起始位置和S波终止位置,如图2所示,进而提取出所需的时域特征,即该心拍的QRS波持续时间、R-R间隔(该心拍的R波峰值点和上一个心拍R波峰值点之间的时间间隔)以及平均R-R间隔(该心拍之前的10个心拍的平均R-R间隔);同时将每个心拍的数据值统一化处理为300个数据值,以代表每个心拍的形态学特征。
二、对心电信号采样数据提取出来的特征进行标准化处理,并对标准化后的特征进行PCA降维,将降维后的心电信号采样数据作为训练集;
其中,进行标准化处理的具体过程为:将提取出来的3个时域特征和300个形态学特征共303个特征利用最小最大标准化方法化为0~1之间的数值,从而使得两种不同的特征对分类方案的作用力同趋化。所述对标准化后的特征进行PCA降维是将标准化后的特征的维数降到包含原始特征信息的95%的维数。
三、利用交叉验证和多种机器学习分类算法对训练集中的心电信号采样数据进行错误标记识别;
具体过程如图3所示,将带有错误标记样本的训练集随机等分成10份,每次取其中1份作为验证集,其余9份作为小训练集用于训练机器学习分类器,并对验证集进行分类,将分类结果对比验证集样本原始标记,判断验证集样本是否为错误标记样本。重复以上过程10次,每次选取的验证集都不同,这样训练集中所有样本都被验证。找出训练集中的所有错误标记样本后,将其从训练集中移除,得到新的训练集,再训练分类器,并在测试集上进行测试。
为了增强错误标记样本识别的可靠性,利用小训练集训练分类器时采用了多种机器学习算法,分别是朴素贝叶斯算法、最近邻法则、线性判别分析、支持向量机和决策树算法,将多个分类器分别对验证集进行分类并将结果和原始标记进行对比,只有当5个分类器中有4个以上分类器都判断一个样本是错误标记的,才将该样本从训练集中剔除。进一步,可以将上述过程重复多次,增强错误标记识别的准确性。
四、将识别出的带有错误标记的心电信号采样数据从训练集中移除,再训练分类器,并对测试集进行分类。
采用来自MIT-BIH心律失常数据库中的20个记录实验数据对本实施例的基于交叉验证的心电信号错误标记样本识别方法进行验证,经过预处理、特征提取、标准化和PCA降维后,通过人为更改样本标记的方法引入比例分别为5%、10%、20%、30%、40%的错误标记样本。在各个比例错误比较样本的训练集上,利用5种机器学习算法和交叉验证识别出错误标记样本,将这些样本剔除出训练集,再重新训练真正的分类器(朴素贝叶斯、最近邻法则、线性判别分析),并在测试集上进行测试,得出分类准确率。
以一个不引入任何错误标记的训练集直接训练分类器并在测试集上进行测试作为对照,来评估本实施例的技术方案在识别错误标记样本并提升心电信号分类准确率上的有效性。其中表1为不引入任何错误标记的训练集直接训练分类器并在测试集上进行测试的错误标记样本识别情况表,表2为采用朴素贝叶斯算法训练分类器并在测试集上进行测试的错误标记样本识别情况表,表3为采用最近邻法则训练分类器并在测试集上进行测试的错误标记样本识别情况表,表4为采用线性判别分析训练分类器并在测试集上进行测试的错误标记样本识别情况表:
误标记比例 | 实际误标记数量 | 识别误标记数量 | 识别实际误标记数量 | 识别率 | 误识率 |
5% | 255 | 334 | 239 | 93.73% | 37% |
10% | 510 | 572 | 474 | 93% | 19.22% |
20% | 1020 | 912 | 825 | 81% | 8.53% |
30% | 1530 | 1344 | 1216 | 79% | 8.37% |
40% | 2040 | 1453 | 1207 | 59% | 11.18% |
表1
误标记比例 | 不处理 | 完全去除误标记 | 交叉验证去除误标记 |
0 | 73.30% | -- | -- |
5% | 71.96% | 73.13% | 75.09% |
10% | 69.33% | 73.20% | 75.53% |
20% | 62.01% | 73.04% | 74.15% |
30% | 51.85% | 73.06% | 72.34% |
40% | 38.77% | 72.74% | 57.87% |
表2
误标记比例 | 不处理 | 完全去除误标记 | 交叉验证去除误标记 |
0 | 97.50% | -- | -- |
5% | 96.60% | 97.29% | 97.25% |
10% | 94.97% | 97.20% | 96.80% |
20% | 87.84% | 97.12% | 95.53% |
30% | 77.48% | 96.96% | 92.22% |
40% | 64.16% | 96.86% | 78.15% |
表3
表4
从中可以看出,当错误标记样本比例不超过20%时,本实施例的技术方案可以使得心电信号分类准确率回升到和无错误标记样本条件下同一水平;当错误标记样本比例为30%时,分类准确率比无错误标记条件下稍低;当错误标记样本比例达到40%,虽然分类准确率相比无错误标记条件下已有不小差距,但相比于不处理的情况还是有很大的回升。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (7)
1.一种基于交叉验证的心电信号错误标记训练样本识别方法,其特征在于,所述方法包括以下步骤:
一、对心电信号采样数据进行预处理,并对预处理后的心电信号采样数据进行特征提取;
二、对心电信号采样数据提取出来的特征进行标准化处理,并对标准化后的特征进行PCA降维,将降维后的心电信号采样数据作为训练集;
三、利用交叉验证和多种机器学习分类算法对训练集中的心电信号采样数据进行错误标记识别;
四、将识别出的带有错误标记的心电信号采样数据从训练集中移除,再重新训练分类器,并对测试集进行分类。
2.根据权利要求1所述的一种基于交叉验证的心电信号错误标记训练样本识别方法,其特征在于,所述对心电信号采样数据进行预处理具体包括:利用中值滤波方法对心电信号采样数据进行处理以去除基线漂移,再对中值滤波后的心电信号采样数据利用小波变换方法去除工频干扰。
3.根据权利要求1所述的一种基于交叉验证的心电信号错误标记训练样本识别方法,其特征在于,所述对预处理后的心电信号采样数据进行特征提取的步骤具体包括:利用小波变换方法检测预处理后的心电信号采样数据中每个心拍的R波峰值位置,对心电信号采样数据依据R波峰值位置进行心拍分割,并检测出每个心拍的Q波起始位置和S波终止位置,进而提取出所需的时域特征,即每个心拍的QRS波持续时间、R-R间隔以及平均R-R间隔;同时将每个心拍的数据值统一化处理为300个数据值,以代表每个心拍的形态学特征。
4.根据权利要求3所述的一种基于交叉验证的心电信号错误标记训练样本识别方法,其特征在于,所述对心电信号采样数据提取出来的特征进行标准化处理的具体过程为:将提取出来的3个时域特征和300个形态学特征共303个特征利用最小最大标准化方法化为0~1之间的数值,从而使得两种不同的特征对分类方案的作用力同趋化。
5.根据权利要求1所述的一种基于交叉验证的心电信号错误标记训练样本识别方法,其特征在于:所述对标准化后的特征进行PCA降维是将标准化后的特征的维数降到包含原始特征信息的95%的维数。
6.根据权利要求1所述的一种基于交叉验证的心电信号错误标记训练样本识别方法,其特征在于,所述步骤三的具体过程为:将带有错误标记样本的训练集随机等分为10份,每次选取其中1份作为验证集,剩下9份作为小训练集用于训练多种机器学习分类器,并对验证集进行分类,分类结果和验证集原来的标记进行对比,找出错误标记样本;重复以上过程10次,每次选取的验证集都不同,以保证训练集中所有样本都被验证;找出训练集中所有的错误标记样本后,将其从训练集中移除,得到新的训练集,再重新训练分类器,并在测试集上进行测试。
7.根据权利要求6所述的一种基于交叉验证的心电信号错误标记训练样本识别方法,其特征在于:所述多种机器学习分类器采用多种机器学习分类算法训练得到,包括朴素贝叶斯算法、线性判别分析、最近邻法则、支持向量机以及决策树算法,当5种算法中有4种以上认为某个样本为错误标记样本的话,模型判断该样本为错误标记样本,其中,模型对样本的判断能够重复多次,以增加可靠性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711088016.2A CN108030494B (zh) | 2017-11-08 | 2017-11-08 | 基于交叉验证的心电信号错误标记训练样本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711088016.2A CN108030494B (zh) | 2017-11-08 | 2017-11-08 | 基于交叉验证的心电信号错误标记训练样本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108030494A CN108030494A (zh) | 2018-05-15 |
CN108030494B true CN108030494B (zh) | 2019-11-15 |
Family
ID=62093693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711088016.2A Expired - Fee Related CN108030494B (zh) | 2017-11-08 | 2017-11-08 | 基于交叉验证的心电信号错误标记训练样本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108030494B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108968941B (zh) * | 2018-05-25 | 2022-03-25 | 深圳市太空科技南方研究院 | 一种心律失常检测方法、装置及终端 |
CN109044347B (zh) * | 2018-07-11 | 2021-08-27 | 上海夏先机电科技发展有限公司 | 识别心电波图像交界性逸搏方法、装置、系统和电子设备 |
CN109359193A (zh) * | 2018-09-25 | 2019-02-19 | 济南大学 | 基于pca降维的堆积两层框架的异常电话识别方法及系统 |
CN109875570B (zh) * | 2019-01-30 | 2020-08-18 | 华南理工大学 | 一种运动前后心电信号身份识别的有效方法 |
CN110072017A (zh) * | 2019-04-28 | 2019-07-30 | 济南大学 | 基于特征选择与集成学习的异常电话识别方法及系统 |
CN110141218B (zh) * | 2019-06-17 | 2022-02-18 | 东软集团股份有限公司 | 一种心电信号分类方法、装置及程序产品、存储介质 |
CN110537907B (zh) * | 2019-08-26 | 2021-05-14 | 华南理工大学 | 一种基于奇异值分解的心电信号压缩及识别方法 |
CN111160484B (zh) * | 2019-12-31 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机可读存储介质及电子设备 |
CN113303805A (zh) * | 2020-02-26 | 2021-08-27 | 美商宇心生医股份有限公司 | 自动心电图诊断方法 |
CN111274158A (zh) * | 2020-02-27 | 2020-06-12 | 北京首汽智行科技有限公司 | 一种数据验证方法 |
CN111523469B (zh) * | 2020-04-23 | 2022-02-18 | 苏州浪潮智能科技有限公司 | 一种行人重识别方法、系统、设备及计算机可读存储介质 |
CN112022144B (zh) * | 2020-09-09 | 2022-05-24 | 生物岛实验室 | 心电异常检测网络训练方法、心电异常预警方法及装置 |
CN112633370B (zh) * | 2020-12-22 | 2022-01-14 | 中国医学科学院北京协和医院 | 一种针对丝状真菌形态的检测方法、装置、设备及介质 |
CN112842355B (zh) * | 2021-02-24 | 2022-02-11 | 推演医疗科技(北京)有限责任公司 | 基于深度学习目标检测的心电信号心搏检测识别方法 |
CN114944000B (zh) * | 2022-06-07 | 2024-04-19 | 重庆第二师范学院 | 一种基于多尺度特征提取的人脸表情识别方法 |
CN117770832B (zh) * | 2024-02-28 | 2024-04-26 | 泰州市新起点创意科技有限公司 | 基于交叉验证的心电信号错误标记训练样本识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103632162A (zh) * | 2013-09-06 | 2014-03-12 | 中国科学院苏州纳米技术与纳米仿生研究所 | 一种疾病相关的心电图特征选择方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279734A1 (en) * | 2013-03-15 | 2014-09-18 | Hewlett-Packard Development Company, L.P. | Performing Cross-Validation Using Non-Randomly Selected Cases |
-
2017
- 2017-11-08 CN CN201711088016.2A patent/CN108030494B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103632162A (zh) * | 2013-09-06 | 2014-03-12 | 中国科学院苏州纳米技术与纳米仿生研究所 | 一种疾病相关的心电图特征选择方法 |
Non-Patent Citations (3)
Title |
---|
Semi-supervised multi-label image classification based on nearest neighbor editing;Zhihua Wei 等;《Neurocomputing》;20130421;第462-468页 * |
基于自适应数据剪辑策略的Tri-training算法;邓超,郭茂祖;《计算机学报》;20070831;第1213-1226页 * |
心电信号质量评估方法研究;寇明春;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150115;I136-95 * |
Also Published As
Publication number | Publication date |
---|---|
CN108030494A (zh) | 2018-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108030494B (zh) | 基于交叉验证的心电信号错误标记训练样本识别方法 | |
Silva et al. | Evaluation of features for leaf discrimination | |
Nguyen et al. | Robust minutiae extractor: Integrating deep networks and fingerprint domain knowledge | |
CN105389593B (zh) | 基于surf特征的图像物体识别方法 | |
Shidore et al. | Number plate recognition for indian vehicles | |
CN103778409A (zh) | 基于人脸特征数据挖掘的人脸识别方法与装置 | |
CN103325122B (zh) | 基于双向排序的行人检索方法 | |
CN107622489A (zh) | 一种图像篡改检测方法及装置 | |
CN109902223A (zh) | 一种基于多模态信息特征的不良内容过滤方法 | |
CN106344004A (zh) | 心电信号特征点检测方法及装置 | |
Gwo et al. | Plant identification through images: Using feature extraction of key points on leaf contours1 | |
CN103955496B (zh) | 一种快速的现场轮胎痕迹花纹检索算法 | |
Rejeb Sfar et al. | Vantage feature frames for fine-grained categorization | |
CN102254196A (zh) | 计算机鉴别手写汉字的方法 | |
Li et al. | Fast and effective text detection | |
CN103177266A (zh) | 储藏物害虫智能识别系统 | |
WO2014066231A1 (en) | Cell identification method and device, and urine analyzer | |
CN106023159A (zh) | 设施蔬菜叶部病斑图像分割方法及系统 | |
CN106650696A (zh) | 一种基于奇异值分解的手写电气元件符号识别方法 | |
Narayan et al. | An optimal feature subset selection using GA for leaf classification | |
Ibrahim et al. | Global vs. local features for gender identification using Arabic and English handwriting | |
CN105975955B (zh) | 一种图像中文本区域的检测方法 | |
CN108900538B (zh) | 一种工控信号检测方法和装置 | |
CN104573663B (zh) | 一种基于鉴别性笔画库的英文场景文字识别方法 | |
CN110197120A (zh) | 用于无人值守传感器系统的人员目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191115 |
|
CF01 | Termination of patent right due to non-payment of annual fee |