CN112465051A - 基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法 - Google Patents
基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法 Download PDFInfo
- Publication number
- CN112465051A CN112465051A CN202011416046.3A CN202011416046A CN112465051A CN 112465051 A CN112465051 A CN 112465051A CN 202011416046 A CN202011416046 A CN 202011416046A CN 112465051 A CN112465051 A CN 112465051A
- Authority
- CN
- China
- Prior art keywords
- label
- labels
- correlation
- similarity
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Physiology (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Fuzzy Systems (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于最优特征空间相似性挖掘标签相关性的心电信号分类方法,属于心电病症智能诊断领域。该发明在已训练好的单个标签分类器的基础上,提出利用最优特征空间相似性算法修正关联规则挖掘出的标签相关性,根据修正的标签相关性确定最终的预测标签;具体步骤:1、利用分类器的分类结果得到主标签和候选副标签集;2、采用关联规则挖掘出标签相关性,并利用本文提出的最优特征空间相似性算法对标签相关性进行修正,通过修正后的标签相关性对候选副标签集进行过滤,确定最终的预测标签。本发明通过计算不同标签间的最优特征空间相似性来修正标签间关系,得到更准确的标签相关性,提高了心电信号分类的精度。
Description
技术领域
本发明属于心电病症智能诊断领域,具体是涉及基于机器学习的多标签病症确定方法,特别是涉及了一种基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法。
背景技术
近年来,多标签学习已逐渐成为机器学习领域的热点研究问题之一。不同于传统的传统单标签分类中每个样本仅属于一个类别标签,多标签分类中每个样本属于多个类别标签。多标签问题的定义为:设X=Rd代表d维样本空间,L={l1,l2,...ln}代表含有n个标签的标签空间,D={(xi,Yi)|1≤i≤m,xi∈X,Yi∈L}代表包含m个样本的训练集,其中xi=[xi1,xi2,...,xid]表示第i个样本的特征向量,Yi=[yi1,yi2,...,yin]为第i个样本的标签集合,如果xi属于标签,那么yij=1,否则yij=0。多标签分类的目的就是训练得到一个多标签分类函数h:X→2L,即为每个样本x∈X分配其相关的标签集合
现有的多标签分类方法主要分为两大类:基于问题转化的方法和基于算法适应的方法;问题转换的策略是将多标签分类问题转化为传统的单标签分类问题,其思想是首先把多标签数据转化为一系列单标签数据,再利用已有的传统分类算法进行分类;而基于算法适应的策略是改进现存的单标签分类方法,使其能够适应多标签数据。
问题转换的方法可以分为二元关联(Binary Relevance)、分类器链(ClassifierChains)、标签幂集法(Label Powerset)等方法。二元关联法是最简单的方法,核心思想是将多标签分类问题分解为多个二元分类问题。这种方法的优点是实现方法简单、容易理解,缺点是没有考虑到标签之间的相关性。分类器链核心思想是将多标签分类问题转换成为一个二元分类器链的形式。分类器链方法的优点在于实现方法相对简单,同时考虑了标签的联系,但该方法的效果受到排序的影响,很难找到合适的标签依赖关系。标签幂集法是将多标签分类转换为多分类问题,每个样本实例的标签集都作为一个单独的类构建多分类器。该方法考虑到了标签之间的组合关系,但没有考虑标签间的依赖性。
目前,采用算法适应策略的方法主要有ML-kNN和ML-DT。ML-kNN是kNN算法的一种改进算法,ML-kNN能够识别出每个样本不同的邻域,利用领域间信息来预测,因此准确率较高,但对异常点不敏感。ML-DT基本思想是采用决策树技术处理多标签数据,利用基于多标签熵的信息增益准则递归构建决策树,它可以从多标签数据中高效地导出决策树模型,但在计算信息熵时假设标签之间相互独立。
算法适应策略和问题转换策略很大程度上都忽略了标签之间的相关性,没有利用标签间的关系构建模型,而心电病症之间恰恰存在着这种联系,因此这些方法不能很好的利用心电图确定病症,预测的准确度较差。
关联规则是数据挖掘的重要模式,能够揭示标签之间的相关关系。关联规则挖掘就是从数据集D中找出强关联规则,强关联规则是满足支持度和置信度大于给定最小支持度和最小置信度的关联规则。Apriori算法是最经典的关联规则挖掘算法,由Agrawal和R.Srikant于1994年提出。
本发明结合以上两方面的工作,提出一种基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法,该方法引入最优特征空间相似性的概念,通过计算不同标签间的最优特征空间相似性来修正关联规则挖掘出的标签相关性,充分利用了标签间的相关性来确定最终的预测标签。
发明内容
针对上述问题,本发明提供了一种基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法,该方法采用关联规则挖掘标签间相关性,然后用最优特征空间相似性修正标签间相关性,很好地实现了心电信号的分类。
本发明的技术方案是:基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法,具体操作步骤如下:
步骤(1.1)、利用最优特征空间相似性算法修正关联规则挖掘出标签相关性;
步骤(1.2)、将预测样本输入到训练好的分类器中,通过筛选处理得到主标签和候选副标签集;
步骤(1.3)、利用挖掘出的标签相关性对候选副标签集进行过滤得到副标签集,再组合主标签与过滤得到的副标签集,从而得到该预测样本最终的预测标签集。
进一步的,在所述步骤(1.1)中,利用最优特征空间相似性算法修正关联规则挖掘出标签相关性的具体操作步骤如下:
(1.1.1)、利用关联规则从训练集中挖掘出标签空间的频繁二项集,记为Γf;
(1.1.2)、设定最优特征空间维度为K,计算标签与特征集中每个特征之间的互信息;
(1.1.3)、选取互信息中最大的K个特征作为该标签的最优特征空间,记为χk;
式中,χi表示标签Li最优的K个特征,χj表示标签Lj最优的K个特征。
进一步的,在步骤(1.2)中,所述通过筛选处理得到主标签和候选副标签集的具体步骤如下:
(1.2.1)、设定主标签阈值、副标签阈值;其中,所示的主标签阈值表示某个标签能成为主标签的最小值,副标签阈值表示某个标签能成为副标签的最小值;
(1.2.2)、将预测样本输入训练好的分类器,得到该样本包含每个标签的概率,其中概率值最大且其值大于主标签阈值的标签作为主标签,从剩余的标签中选取出概率值大于副标签阈值的标签作为候选副标签集。
进一步的,在所述步骤(1.3)中,对候选副标签集进行过滤得到副标签集的具体规则如下:从候选副标签集中删除与主标签不构成频繁项的标签,其余剩下的标签则组成副标签集。
本发明的有益效果是:本发明引入最优特征空间相似性的概念,通过计算不同标签间的最优特征空间相似性来修正关联规则挖掘出的标签相关性,得到更准确的标签相关性,进一步提高了心电信号分类算法的准确度。
附图说明
图1是本发明的结构流程图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:
如图所述;基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法,具体操作步骤如下:
步骤(1.1)、利用最优特征空间相似性算法修正关联规则挖掘出标签相关性;
步骤(1.2)、将预测样本输入到训练好的分类器中,通过筛选处理得到主标签和候选副标签集;
步骤(1.3)、利用挖掘出的标签相关性对候选副标签集进行过滤得到副标签集,再组合主标签与过滤得到的副标签集,从而得到该预测样本最终的预测标签集。
进一步的,在所述步骤(1.1)中,利用最优特征空间相似性算法修正关联规则挖掘出标签相关性的具体操作步骤如下:
(1.1.1)、利用关联规则从训练集中挖掘出标签空间的频繁二项集,记为Γf;
(1.1.2)、设定最优特征空间维度为K,计算标签与特征集中每个特征之间的互信息;具体的:
对于两个随机变量X和Y,如果其联合分布为p(x,y),边缘分布为p(x),p(y),则互信息定义为:
为了便于计算,将互信息改写成如下形式:
心电数据的特征空间中包含连续型特征和离散型特征,为了便于计算特征的分布,首先将连续型特征进行离散化,采用等宽算法将特征的值域划分成(m为训练集样本个数)个区间,统计出p(x)、p(y|x),即可计算出特征与标签之间的互信息;
(1.1.3)、选取互信息中最大的K个特征作为该标签的最优特征空间,记为χk;
进一步的,在步骤(1.2)中,所述通过筛选处理得到主标签和候选副标签集的具体步骤如下:
(1.2.1)、设定主标签阈值(记为θp)、副标签阈值(记为θs);其中,所示的主标签阈值表示某个标签能成为主标签的最小值,副标签阈值表示某个标签能成为副标签的最小值;
(1.2.2)、将预测样本(记为di)输入训练好的分类器,得到该样本包含每个标签的概率,其中概率值最大且其值大于主标签阈值的标签作为主标签(记为Lp),从剩余的标签中选取出概率值大于副标签阈值的标签作为候选副标签集(记为Lcs)。
进一步的,在所述步骤(1.3)中,得到最终预测标签的具体实施步骤如下:
(1.3.1)、设置最小的最优特征空间相似性阈值(记为θf),遍历频繁二项集(记为Γf)中的每一项,若某一项中的两个标签之间的最优特征空间相似性小于最小的最优特征空间相似性阈值(记为θf),则将该项从频繁二项集(记为Γf)中删除,从而得到更新后的频繁二项集(记为Γnf);
(1.3.1)、通过更新后的频繁二项集(记为Γnf)对候选副标签集(记为Lcs)进行过滤,若候选副标签集(记为Lcs)中的某个标签与主标签(记为Lp)构成的标签对不在频繁二项集(记为Γnf)中,则从候选副标签集(记为Lcs)中删除该标签,得到副标签集(记为Ls),将主标签(记为Lp)与副标签集(记为Ls)取并集,得到该预测样本最终的标签预测集(记为Yd)。
本发明的流程图如图1所示,该方法对已经训练好的分类器,采用两步确定最终结果:第一步,对分类器的结果进行筛选,产生主标签Lp以及候选副标签集Lcs;第二步,使用关联规则挖掘算法挖掘出标签集的频繁二项集Γf,并用本文提出的最优特征空间相似性算法修正Γf,得到修正的频繁二项集Γnf,修正的频繁二项集Γnf中的每一项标签对具有强相关性,通过修正的频繁二项集对候选副标签集Lcs进行过滤得到副标签集Ls,确定最终的标签预测集Yd。
具体实施例:如表1所示,表1:训练集数据
如表1所示,给定10个样本的训练集,在特征空间中,P波幅度、T波幅度、QRS波群幅度为连续型特征(单位为mv),P波双峰、T波低平为离散型特征,0表示没有这个特征,1表示有这个特征,为了便于描述,将上述特征依次命名为f1、f2、f3、f4、f5;标签空间由左心房肥大、窦性心律不齐、下壁心肌梗死、房性期前收缩四个标签组成,0表示该样本不含此标签,1表示该样本含有此标签,为了便于描述,将上述标签依次命名为L1、L2、L3、L4。
步骤(1)、利用最优特征空间相似性算法修正关联规则挖掘出的标签相关性;其具体实施步骤如下:
(1.1)、使用关联规则从训练集的标签集中挖掘出频繁二项集Γf,设定minSupport=0.01,minConfidence=0.5,本例中,Γf={{L1,L3}、{L2,L3}、{L2,L4}};
(1.2)、基于互信息找出每个标签最优的K个特征,计算不同标签之间的最优特征空间相似性,分为如下步骤进行:
(1.2.3)、计算特征与标签之间的互信息,将(1.2.2)中计算出的p(x)、p(y|x)带入到如下公式中:
即可计算出特征与标签之间的互信息,如表2所示,为特征与标签的互信息;
表2:特征与标签的互信息
(1.2.4)、计算标签之间的最优特征空间相似性。以标签L1、L2为例,设定最优特征空间维度K=3,经过步骤(1.2.3)的计算得知,与标签L1的互信息最大的3个特征为{f1、f2、f3},与标签L2的互信息最大的3个特征为{f2、f3、f4},则标签L1的最优特征空间χ1=[f1,f2,f3],L2的最优特征空间χ2=[f2,f3,f4],L1与L2的最优特征空间相似性如表3所示,为本例中标签之间的最优特征空间相似性;
表3:标签间最优特征空间相似性
(1.3)、设定最优特征空间相似性阈值θl=0.35,从频繁二项集Γf中过滤掉不满足θl的频繁项,得到更新后的频繁二项集Γnf,则Γnf中的每一个标签对都具有强相关性;
在本例中,步骤(1.1)中计算出的Γf={{L1,L3}、{L2,L3}、{L2,L4}},由表3可知L2L4之间的最优特征特征空间相似性小于θl,故将{L2,L4}从Γf中删去,得到Γnf={{L1,L3}、{L2,L3}};
步骤(2)、确定预测样本的主标签和候选副标签集,如表4所示,
表4、分类器分类结果:
以样本D1为例,具体实施步骤如下:
(2.1)、设定主标签阈值θp=0.5,副标签阈值θs=0.4;
(2.2)、将预测样本输入训练好的分类器,得到预测样本包含每个标签的概率,比如:样本D1包含标签L1、L2、L3、L4的概率分别为0.42、0.85、0.43、0.56;
(2.3)、从上述概率值中选出最大值,0.85是最大的值,且该值大于主标签阈值θp,则0.85对应的标签L2作为该样本的主标签Lp,若最大的值小于θp,则该样本无主标签,则跳过下面的步骤;
(2.4)、从除去主标签的剩余标签中挑选出概率值大于副标签阈值θs的标签组成候选副标签集;0.42、0.43、0.56都大于θs,故D1的候选副标签集为Lcs={L1L3L4};
步骤(3)、利用标签相关性对候选副标签集进行过滤;更新后的频繁二项集Γnf中的每一项标签对具有强相关性,从候选副标签集中删除与主标签不具有强关联关系的标签,剩下的标签组成副标签集Ls;在本例中,步骤(1.3)中计算出Γnf={{L1,L3}、{L2,L3}},步骤(2.3)中计算出Lp=L2,步骤(2.4)计算出Lcs={L1L3L4},由于L1、L4与标签L2不构成强相关性,故将L1与L4从Lcs中过滤掉,得到副标签集Ls=[L3];
步骤(4)、将主标签Lp与副标签集Ls取并集,得到该预测样本最终的预测标签Yd;在本例中Lp=L2,Ls=[L3],故Yd=[L2,L3]=[窦性心律不齐、下壁心肌梗死];
该发明针对心电数据的多标签分类问题,提出了一种基于最优特征空间相似性修正标签相关性的方法,充分利用了标签间的相关性,提高了模型的泛化性能和模型分类的准确度。
最后,应当理解的是,本发明中所述实施例仅用以说明本发明实施例的原则;其他的变形也可能属于本发明的范围;因此,作为示例而非限制,本发明实施例的替代配置可视为与本发明的教导一致;相应地,本发明的实施例不限于本发明明确介绍和描述的实施例。
Claims (5)
1.基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法,其特征在于,具体操作步骤如下:
步骤(1.1)、利用最优特征空间相似性算法修正关联规则挖掘出标签相关性;
步骤(1.2)、将预测样本输入到训练好的分类器中,通过筛选处理得到主标签和候选副标签集;
步骤(1.3)、利用挖掘出的标签相关性对候选副标签集进行过滤得到副标签集,再组合主标签与过滤得到的副标签集,从而得到该预测样本最终的预测标签集。
4.根据权利要求1所述的基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法,其特征在于,
在步骤(1.2)中,所述通过筛选处理得到主标签和候选副标签集的具体步骤如下:
(1.2.1)、设定主标签阈值、副标签阈值;其中,所示的主标签阈值表示某个标签能成为主标签的最小值,副标签阈值表示某个标签能成为副标签的最小值;
(1.2.2)、将预测样本输入训练好的分类器,得到该样本包含每个标签的概率,其中概率值最大且其值大于主标签阈值的标签作为主标签,从剩余的标签中选取出概率值大于副标签阈值的标签作为候选副标签集。
5.根据权利要求1所述的基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法,其特征在于,
在所述步骤(1.3)中,对候选副标签集进行过滤得到副标签集的具体规则如下:从候选副标签集中删除与主标签不构成频繁项的标签,其余剩下的标签则组成副标签集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011416046.3A CN112465051A (zh) | 2020-12-07 | 2020-12-07 | 基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011416046.3A CN112465051A (zh) | 2020-12-07 | 2020-12-07 | 基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112465051A true CN112465051A (zh) | 2021-03-09 |
Family
ID=74800693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011416046.3A Withdrawn CN112465051A (zh) | 2020-12-07 | 2020-12-07 | 基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465051A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807456A (zh) * | 2021-09-26 | 2021-12-17 | 大连交通大学 | 一种基于互信息的特征筛选和关联规则多标记分类算法 |
CN114039744A (zh) * | 2021-09-29 | 2022-02-11 | 中孚信息股份有限公司 | 一种基于用户特征标签的异常行为预测方法及系统 |
-
2020
- 2020-12-07 CN CN202011416046.3A patent/CN112465051A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807456A (zh) * | 2021-09-26 | 2021-12-17 | 大连交通大学 | 一种基于互信息的特征筛选和关联规则多标记分类算法 |
CN113807456B (zh) * | 2021-09-26 | 2024-04-09 | 大连交通大学 | 一种基于互信息的特征筛选和关联规则多标记分类方法 |
CN114039744A (zh) * | 2021-09-29 | 2022-02-11 | 中孚信息股份有限公司 | 一种基于用户特征标签的异常行为预测方法及系统 |
CN114039744B (zh) * | 2021-09-29 | 2024-02-27 | 中孚信息股份有限公司 | 一种基于用户特征标签的异常行为预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmed et al. | Rice leaf disease detection using machine learning techniques | |
Bi et al. | An empirical comparison on state-of-the-art multi-class imbalance learning algorithms and a new diversified ensemble learning scheme | |
CN109271486B (zh) | 一种相似性保留跨模态哈希检索方法 | |
CN112465051A (zh) | 基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法 | |
US7320002B2 (en) | Using tables to learn trees | |
CN114943017B (zh) | 一种基于相似性零样本哈希的跨模态检索方法 | |
Zemmal et al. | A new hybrid system combining active learning and particle swarm optimisation for medical data classification | |
CN102117411A (zh) | 用于构建多级别分类模型的方法和系统 | |
CN109447110A (zh) | 综合邻居标签相关性特征和样本特征的多标签分类的方法 | |
CN113535947B (zh) | 一种带有缺失标记的不完备数据的多标记分类方法及装置 | |
Zhao et al. | Motif discovery and feature selection for crf-based activity recognition | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
CN114817581A (zh) | 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法 | |
CN111046965A (zh) | 一种多标记分类中潜在类别发现和分类方法 | |
Dhyaram et al. | RANDOM SUBSET FEATURE SELECTION FOR CLASSIFICATION. | |
CN117292749A (zh) | 一种基于bert特征编码技术和深度学习组合模型的抗菌肽预测方法 | |
Pourhabibi et al. | Feature selection on Persian fonts: a comparative analysis on GAA, GESA and GA | |
Zheng et al. | A new efficient algorithm based on multi-classifiers model for classification | |
Zhu et al. | Multi-label learning with local similarity of samples | |
Zhang et al. | Online active learning framework for data stream classification with density-peaks recognition | |
CN112418293A (zh) | 一种基于信息度和代表度的主动学习抽样方法 | |
Vardhan et al. | Density based clustering technique on crop yield prediction | |
Kihel et al. | A novel genetic grey wolf optimizer for global optimization and feature selection | |
CN113837248A (zh) | 一种以近邻熵为查询策略的主动学习方法 | |
CN112925839A (zh) | 一种面向增量式数据集的知识发现方法与发现装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210309 |
|
WW01 | Invention patent application withdrawn after publication |