CN112465051A

CN112465051A - 基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法

Info

Publication number: CN112465051A
Application number: CN202011416046.3A
Authority: CN
Inventors: 韩京宇; 王成; 张伟; 钱龙; 赵静
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-09

Abstract

本发明公开了一种基于最优特征空间相似性挖掘标签相关性的心电信号分类方法，属于心电病症智能诊断领域。该发明在已训练好的单个标签分类器的基础上，提出利用最优特征空间相似性算法修正关联规则挖掘出的标签相关性，根据修正的标签相关性确定最终的预测标签；具体步骤：1、利用分类器的分类结果得到主标签和候选副标签集；2、采用关联规则挖掘出标签相关性，并利用本文提出的最优特征空间相似性算法对标签相关性进行修正，通过修正后的标签相关性对候选副标签集进行过滤，确定最终的预测标签。本发明通过计算不同标签间的最优特征空间相似性来修正标签间关系，得到更准确的标签相关性，提高了心电信号分类的精度。

Description

基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法

技术领域

本发明属于心电病症智能诊断领域，具体是涉及基于机器学习的多标签病症确定方法，特别是涉及了一种基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法。

背景技术

近年来，多标签学习已逐渐成为机器学习领域的热点研究问题之一。不同于传统的传统单标签分类中每个样本仅属于一个类别标签，多标签分类中每个样本属于多个类别标签。多标签问题的定义为：设X＝R^d代表d维样本空间，L＝{l₁,l₂,...l_n}代表含有n个标签的标签空间，D＝{(x_i,Y_i)|1≤i≤m,x_i∈X,Y_i∈L}代表包含m个样本的训练集，其中x_i＝[x_i1,x_i2,...,x_id]表示第i个样本的特征向量，Y_i＝[y_i1,y_i2,...,y_in]为第i个样本的标签集合，如果x_i属于标签，那么y_ij＝1，否则y_ij＝0。多标签分类的目的就是训练得到一个多标签分类函数h:X→2^L，即为每个样本x∈X分配其相关的标签集合

现有的多标签分类方法主要分为两大类：基于问题转化的方法和基于算法适应的方法；问题转换的策略是将多标签分类问题转化为传统的单标签分类问题，其思想是首先把多标签数据转化为一系列单标签数据，再利用已有的传统分类算法进行分类；而基于算法适应的策略是改进现存的单标签分类方法，使其能够适应多标签数据。

问题转换的方法可以分为二元关联(Binary Relevance)、分类器链(ClassifierChains)、标签幂集法(Label Powerset)等方法。二元关联法是最简单的方法，核心思想是将多标签分类问题分解为多个二元分类问题。这种方法的优点是实现方法简单、容易理解，缺点是没有考虑到标签之间的相关性。分类器链核心思想是将多标签分类问题转换成为一个二元分类器链的形式。分类器链方法的优点在于实现方法相对简单，同时考虑了标签的联系，但该方法的效果受到排序的影响，很难找到合适的标签依赖关系。标签幂集法是将多标签分类转换为多分类问题，每个样本实例的标签集都作为一个单独的类构建多分类器。该方法考虑到了标签之间的组合关系，但没有考虑标签间的依赖性。

目前，采用算法适应策略的方法主要有ML-kNN和ML-DT。ML-kNN是kNN算法的一种改进算法，ML-kNN能够识别出每个样本不同的邻域，利用领域间信息来预测，因此准确率较高，但对异常点不敏感。ML-DT基本思想是采用决策树技术处理多标签数据，利用基于多标签熵的信息增益准则递归构建决策树，它可以从多标签数据中高效地导出决策树模型，但在计算信息熵时假设标签之间相互独立。

算法适应策略和问题转换策略很大程度上都忽略了标签之间的相关性，没有利用标签间的关系构建模型，而心电病症之间恰恰存在着这种联系，因此这些方法不能很好的利用心电图确定病症，预测的准确度较差。

关联规则是数据挖掘的重要模式，能够揭示标签之间的相关关系。关联规则挖掘就是从数据集D中找出强关联规则，强关联规则是满足支持度和置信度大于给定最小支持度和最小置信度的关联规则。Apriori算法是最经典的关联规则挖掘算法，由Agrawal和R.Srikant于1994年提出。

本发明结合以上两方面的工作，提出一种基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法，该方法引入最优特征空间相似性的概念，通过计算不同标签间的最优特征空间相似性来修正关联规则挖掘出的标签相关性，充分利用了标签间的相关性来确定最终的预测标签。

发明内容

针对上述问题，本发明提供了一种基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法，该方法采用关联规则挖掘标签间相关性，然后用最优特征空间相似性修正标签间相关性，很好地实现了心电信号的分类。

本发明的技术方案是：基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法，具体操作步骤如下：

步骤(1.1)、利用最优特征空间相似性算法修正关联规则挖掘出标签相关性；

步骤(1.2)、将预测样本输入到训练好的分类器中，通过筛选处理得到主标签和候选副标签集；

步骤(1.3)、利用挖掘出的标签相关性对候选副标签集进行过滤得到副标签集，再组合主标签与过滤得到的副标签集，从而得到该预测样本最终的预测标签集。

进一步的，在所述步骤(1.1)中，利用最优特征空间相似性算法修正关联规则挖掘出标签相关性的具体操作步骤如下：

(1.1.1)、利用关联规则从训练集中挖掘出标签空间的频繁二项集，记为Γ_f；

(1.1.2)、设定最优特征空间维度为K，计算标签与特征集中每个特征之间的互信息；

(1.1.3)、选取互信息中最大的K个特征作为该标签的最优特征空间，记为χ_k；

(1.1.4)、计算不同标签之间最优特征空间的相似性，记为

进一步的，在步骤(1.1.4)中，所述计算不同标签之间最优特征空间的相似性

的操作方式如下：

给定标签L_i和L_j及对应的最优特征空间χ_i和χ_j；其中，所述标签L_i和L_j的最优特征空间相似性

的公式如下式所示：

式中，χ_i表示标签L_i最优的K个特征，χ_j表示标签L_j最优的K个特征。

进一步的，在步骤(1.2)中，所述通过筛选处理得到主标签和候选副标签集的具体步骤如下：

(1.2.1)、设定主标签阈值、副标签阈值；其中，所示的主标签阈值表示某个标签能成为主标签的最小值，副标签阈值表示某个标签能成为副标签的最小值；

(1.2.2)、将预测样本输入训练好的分类器，得到该样本包含每个标签的概率，其中概率值最大且其值大于主标签阈值的标签作为主标签，从剩余的标签中选取出概率值大于副标签阈值的标签作为候选副标签集。

进一步的，在所述步骤(1.3)中，对候选副标签集进行过滤得到副标签集的具体规则如下：从候选副标签集中删除与主标签不构成频繁项的标签，其余剩下的标签则组成副标签集。

本发明的有益效果是：本发明引入最优特征空间相似性的概念，通过计算不同标签间的最优特征空间相似性来修正关联规则挖掘出的标签相关性，得到更准确的标签相关性，进一步提高了心电信号分类算法的准确度。

附图说明

图1是本发明的结构流程图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：

如图所述；基于最优特征空间相似性挖掘标签间相关性的心电信号分类方法，具体操作步骤如下：

(1.1.2)、设定最优特征空间维度为K，计算标签与特征集中每个特征之间的互信息；具体的：

对于两个随机变量X和Y，如果其联合分布为p(x,y)，边缘分布为p(x)，p(y)，则互信息定义为：

为了便于计算，将互信息改写成如下形式：

心电数据的特征空间中包含连续型特征和离散型特征，为了便于计算特征的分布，首先将连续型特征进行离散化，采用等宽算法将特征的值域划分成

(m为训练集样本个数)个区间，统计出p(x)、p(y|x)，即可计算出特征与标签之间的互信息；

(1.1.4)、计算不同标签之间最优特征空间的相似性，记为

具体的，

的公式如下式所示：

从上式可以知道，

当χ_i＝χ_j时，

当

时，

χ_i表示标签L_i最优的K个特征；χ_j表示标签L_j最优的K个特征。

(1.2.1)、设定主标签阈值(记为θ_p)、副标签阈值(记为θ_s)；其中，所示的主标签阈值表示某个标签能成为主标签的最小值，副标签阈值表示某个标签能成为副标签的最小值；

(1.2.2)、将预测样本(记为d_i)输入训练好的分类器，得到该样本包含每个标签的概率，其中概率值最大且其值大于主标签阈值的标签作为主标签(记为L_p)，从剩余的标签中选取出概率值大于副标签阈值的标签作为候选副标签集(记为L_cs)。

进一步的，在所述步骤(1.3)中，得到最终预测标签的具体实施步骤如下：

(1.3.1)、设置最小的最优特征空间相似性阈值(记为θ_f)，遍历频繁二项集(记为Γ_f)中的每一项，若某一项中的两个标签之间的最优特征空间相似性小于最小的最优特征空间相似性阈值(记为θ_f)，则将该项从频繁二项集(记为Γ_f)中删除，从而得到更新后的频繁二项集(记为Γ_nf)；

(1.3.1)、通过更新后的频繁二项集(记为Γ_nf)对候选副标签集(记为L_cs)进行过滤，若候选副标签集(记为L_cs)中的某个标签与主标签(记为L_p)构成的标签对不在频繁二项集(记为Γ_nf)中，则从候选副标签集(记为L_cs)中删除该标签，得到副标签集(记为L_s)，将主标签(记为L_p)与副标签集(记为L_s)取并集，得到该预测样本最终的标签预测集(记为Y_d)。

本发明的流程图如图1所示，该方法对已经训练好的分类器，采用两步确定最终结果：第一步，对分类器的结果进行筛选，产生主标签L_p以及候选副标签集L_cs；第二步，使用关联规则挖掘算法挖掘出标签集的频繁二项集Γ_f，并用本文提出的最优特征空间相似性算法修正Γ_f，得到修正的频繁二项集Γ_nf，修正的频繁二项集Γ_nf中的每一项标签对具有强相关性，通过修正的频繁二项集对候选副标签集L_cs进行过滤得到副标签集L_s，确定最终的标签预测集Y_d。

具体实施例：如表1所示，表1：训练集数据

如表1所示，给定10个样本的训练集，在特征空间中，P波幅度、T波幅度、QRS波群幅度为连续型特征(单位为mv)，P波双峰、T波低平为离散型特征，0表示没有这个特征，1表示有这个特征，为了便于描述，将上述特征依次命名为f₁、f₂、f₃、f₄、f₅；标签空间由左心房肥大、窦性心律不齐、下壁心肌梗死、房性期前收缩四个标签组成，0表示该样本不含此标签，1表示该样本含有此标签，为了便于描述，将上述标签依次命名为L₁、L₂、L₃、L₄。

步骤(1)、利用最优特征空间相似性算法修正关联规则挖掘出的标签相关性；其具体实施步骤如下：

(1.1)、使用关联规则从训练集的标签集中挖掘出频繁二项集Γ_f，设定minSupport＝0.01，minConfidence＝0.5，本例中，Γ_f＝{{L₁，L₃}、{L₂，L₃}、{L₂，L₄}}；

(1.2)、基于互信息找出每个标签最优的K个特征，计算不同标签之间的最优特征空间相似性，分为如下步骤进行：

(1.2.1)、将连续型特征离散化；以特征f₁为例进行说明，在该训练集中f₁范围为[0.01,0.23]，将该范围划分为

个区间；

(1.2.2)、计算分布函数；以特征f₁与标签L₁为例进行说明，

(1.2.3)、计算特征与标签之间的互信息，将(1.2.2)中计算出的p(x)、p(y|x)带入到如下公式中：

即可计算出特征与标签之间的互信息，如表2所示，为特征与标签的互信息；

表2：特征与标签的互信息

(1.2.4)、计算标签之间的最优特征空间相似性。以标签L₁、L₂为例，设定最优特征空间维度K＝3，经过步骤(1.2.3)的计算得知，与标签L₁的互信息最大的3个特征为{f₁、f₂、f₃}，与标签L₂的互信息最大的3个特征为{f₂、f₃、f₄}，则标签L₁的最优特征空间χ₁＝[f₁,f₂,f₃]，L₂的最优特征空间χ₂＝[f₂,f₃,f₄]，L₁与L₂的最优特征空间相似性

如表3所示，为本例中标签之间的最优特征空间相似性；

表3：标签间最优特征空间相似性

(1.3)、设定最优特征空间相似性阈值θ_l＝0.35，从频繁二项集Γ_f中过滤掉不满足θ_l的频繁项，得到更新后的频繁二项集Γ_nf，则Γ_nf中的每一个标签对都具有强相关性；

在本例中，步骤(1.1)中计算出的Γ_f＝{{L₁，L₃}、{L₂，L₃}、{L₂，L₄}}，由表3可知L₂L₄之间的最优特征特征空间相似性小于θ_l，故将{L₂，L₄}从Γ_f中删去，得到Γ_nf＝{{L₁，L₃}、{L₂，L₃}}；

步骤(2)、确定预测样本的主标签和候选副标签集，如表4所示，

表4、分类器分类结果：

以样本D1为例，具体实施步骤如下：

(2.1)、设定主标签阈值θ_p＝0.5，副标签阈值θ_s＝0.4；

(2.2)、将预测样本输入训练好的分类器，得到预测样本包含每个标签的概率，比如：样本D1包含标签L₁、L₂、L₃、L₄的概率分别为0.42、0.85、0.43、0.56；

(2.3)、从上述概率值中选出最大值，0.85是最大的值，且该值大于主标签阈值θ_p，则0.85对应的标签L₂作为该样本的主标签L_p，若最大的值小于θ_p，则该样本无主标签，则跳过下面的步骤；

(2.4)、从除去主标签的剩余标签中挑选出概率值大于副标签阈值θ_s的标签组成候选副标签集；0.42、0.43、0.56都大于θ_s，故D1的候选副标签集为L_cs＝{L₁L₃L₄}；

步骤(3)、利用标签相关性对候选副标签集进行过滤；更新后的频繁二项集Γ_nf中的每一项标签对具有强相关性，从候选副标签集中删除与主标签不具有强关联关系的标签，剩下的标签组成副标签集L_s；在本例中，步骤(1.3)中计算出Γ_nf＝{{L₁，L₃}、{L₂，L₃}}，步骤(2.3)中计算出L_p＝L₂，步骤(2.4)计算出L_cs＝{L₁L₃L₄}，由于L₁、L₄与标签L₂不构成强相关性，故将L₁与L₄从L_cs中过滤掉，得到副标签集L_s＝[L₃]；

步骤(4)、将主标签L_p与副标签集L_s取并集，得到该预测样本最终的预测标签Y_d；在本例中L_p＝L₂，L_s＝[L₃]，故Y_d＝[L₂,L₃]＝[窦性心律不齐、下壁心肌梗死]；

该发明针对心电数据的多标签分类问题，提出了一种基于最优特征空间相似性修正标签相关性的方法，充分利用了标签间的相关性，提高了模型的泛化性能和模型分类的准确度。

最后，应当理解的是，本发明中所述实施例仅用以说明本发明实施例的原则；其他的变形也可能属于本发明的范围；因此，作为示例而非限制，本发明实施例的替代配置可视为与本发明的教导一致；相应地，本发明的实施例不限于本发明明确介绍和描述的实施例。