CN108399369B

CN108399369B - 基于分布式计算和深度学习的心电节拍分类方法

Info

Publication number: CN108399369B
Application number: CN201810104310.6A
Authority: CN
Inventors: 李潍; 孙琦; 胡振原; 李建清
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2021-10-19
Anticipated expiration: 2038-02-02
Also published as: CN108399369A

Abstract

本发明公开了一种基于分布式计算和深度学习算法的心电节拍分类方法，包括以下步骤：首先获取心电节拍信号并划分样本集，对训练集中的心电数据流形进行局部区域化；然后构建分布式深度学习场，并利用训练集数据进行训练，在训练中采用软同步的方法实现数据并行；最后利用训练好的深度学习场对测试集的心电数据进行分类。利用本发明的方法能够发现在数据中潜在的信息，解决了传统的心电节拍分类过程中体征描述容易存在偏差，特别是当心电数据特征不明显时容易出现错误分类的问题，同时解决了单机训练耗时过久的问题，能够应用于海量ECG数据的分类，具有显著提高的计算效率。

Description

基于分布式计算和深度学习的心电节拍分类方法

技术领域

本发明涉及心电节拍分类方法，尤其涉及一种基于分布式计算和深度学习算法的心电节拍分类方法。

背景技术

心电图(Electrocardiography，ECG)信号分析在心血管疾病的诊断中起着重要的作用，因为心电信号记录心电活动，可以提供人体心脏状态的重要病理信息。然而，由于心电数据的变化复杂，而且人眼的能力有限，让医生在短时间内分析大量的心电数据实际上是不切实际的。因此，近年来计算机辅助诊断系统已引起越来越多的关注。而随着可穿戴式的心电采集设备的不断发展，未来通过这类设备所采集到的心电数据将是海量的，计算机辅助计算需要处理的ECG数据越来越大，传统的单机计算分类方法已经很难适应未来的发展。

高性能的计算(High performance computing，HPC)平台为处理海量ECG数据提供了一种可行的手段。HPC系统通常使用很多处理器(作为单个机器的一部分)或者某一机群中组织的几台计算机(作为单个计算资源操作)来处理计算任务。机群是一种分布存储的并行系统，各结点通信主要使用消息传递方式。机群系统提出之后发展得十分迅猛，已成为目前研究的热点，它可以用商品处理器和商品网络方便地构造。另外它还有许多过去的并行系统不可比拟的优势，比如投资风险小、性能价格比高、系统的开发周期短等优点。

传统的心电节拍分类方法从不同角度研究和开发了提取心电数据特征的技术，如波形描述形态、波段统计表示、小波系数的量化等。然而，手动设计的特征不可避免地受到信息损失的限制，因为它们比数据本身更依赖于人。同样手动调整手工特征的多个参数也是很困难的。近年来，深度学习技术发展迅猛，人工智能领域掀起了深度学习的浪潮，从学术界到工业界都热情高涨。深度学习尝试解决人工智能中抽象认知的难题，从理论分析到应用都获得了很大的成功，通过深度学习的模型处理心电信号也已经成为当前的热点。深度学习方法与分别进行特征工程和分类器学习的传统方法不同，它具有可以自动从数据中学习分层特征表示的特点和优势，而传统的特征工程可能失去有用的信息。但是深度学习方法仍然存在体征描述容易出现偏差的问题，特别是当心电数据特征不明显时容易出现分类错误。此外，现有的深度学习平台多采用单机处理，其计算能力革新速度远远跟不上数据量的增长速度，因此如何将庞大的心电信号进行快速准确的分类是当下急需解决的问题。

发明内容

发明目的：为了解决现有技术的问题，本发明提出了一种基于分布式计算和深度学习的心电节拍分类方法，适用于待分类ECG数据量庞大的场景，同时能够解决体征描述容易存在偏差特别是当心电数据特征不明显时容易出现错误分类的问题。

技术方案：为了实现上述目的，一种基于分布式计算和深度学习的心电节拍分类方法包括以下步骤：

(1)获取心电节拍信号；

(2)对心电数据进行局部区域化处理；

(3)构建分布式深度学习场，基于局部区域化处理后的心电数据进行训练，采用软同步的方法实现数据并行；

(4)利用训练好的深度学习场对待分类的心电数据进行分类。

其中，心电节拍信号从M种不同类型的ECG数据中提取离散的心电信号而得到，将同一人的同一种心电数据类型作为一个数据集，一个心电节拍作为数据集中的一个数据项。为了提高深度学习的效率，同时帮助探索数据中隐藏的类信息，对于心电数据流形进行局部区域化处理，其处理过程包括：通过计算每个数据集与其他数据集之间的集合相异度来确定该数据集的邻集，将每个数据集及其邻集划分为一个区域，使得划分到区域中的数据量占所有数据量的指定百分比以上。

构建深度学习场包括：设置深度学习场的层级结构，包括输入层、N个隐藏层、输出层，并根据采集的心电数据设置各层神经元数目；然后将心电数据和深度学习框架配置给机群，其中M种不同的心电数据分别配置给M个不同的计算节点，而每台计算节点的深度学习框架相同。深度学习场采用深度前馈网络模型来训练，并通过“软同步”(softsynchronization)的方法实现整合结果和在各工作节点间同步模型参数。

有益效果：与现有技术相比，本发明具有以下有益效果：

1、本发明所采用的分布式心电分类方法，能够很好地计算庞大心电信号的分类问题，也是对未来穿戴式设备所产生的庞大心电数据有效应对措施。

2、本发明的深度学习方法通过局部区域化数据处理提供了空间约束，将深度学习重点放在局部分布的特殊性上。当深度学习探索隐藏的类信息时，这样的约束可以帮助减少不相关类的异常值的负面影响。同时，通过局部区域化减少了局部区域的数据量，从而缩小了模型所需的容量，从而实现了更高效的学习。减小的数据量和模型复杂度也降低了计算成本。

3、本发明的分布式计算采用软同步的方法实现参数的数据并行，使得参数服务器只要接收到指定数目节点的权重差值就进行更新，而不是等待所有节点发送完权重差值，再进行平均操作，消除了木桶效应问题，使得本发明的计算方式更加快速。

附图说明

图1为本发明分布式计算系统的部分示意图；

图2为本发明方法过程示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

参照图1，本发明采用分布式计算的结构，分布式计算将M种不同的心电数据按类型分成M个部分，分别分配给M台工作节点进行处理。主要是考虑到每种类型的心电数据通过深度学习框架所需要的计算力不同，一种类型如果能提前训练完成，可以空出工作节点，避免计算能力的浪费，这样可以节约整体计算时间，大大提高计算效率。与传统的分类方法和简单的深度学习分类学习相比具有处理ECG大数据的能力，能够极大地加快数据处理进程。本实施例中处理的心电数据有16种类型，工作节点数设定为16(图中未全部示出)，根据实际情况可以做相应更改。

参照图2，本发明的心电节拍分类方法包括以下步骤：

步骤10、获取心电节拍信号并划分为训练样本集和测试样本集。

从所收集的ECG数据中提取离散的心电节拍信号，通过提取R峰处的多处采样点获得。本实施例中通过提取235个点，其中R峰之前设置90个采样点，之后有144个采样点。如果任何节拍信号中的第一个或最后一个检测到的QRS波群之前的采样点不足，则忽略相应的心电节拍。这些心电节拍数据将作为深度学习场的训练集和测试集样本。

划分样本集为训练集和测试集：选取数据中同一人的同一种心电数据类型作为一个训练集，一个心电节拍作为训练集中的一个数据项，进行多次这样的操作，直到采集到符合数量要求的训练集。原则上训练集数据越多越好，本实施例中考虑到使用的心率失常数据中在不断更新增加以及着眼于未来可穿戴设备的普及将会带来庞大的心电数据，最后划分的训练集中每类心电数据数目在几千到上万个不等。训练集之外再留取一部分数据作为测试集。

步骤20、对训练集中的心电数据流形进行局部区域化。

将训练集作为地标集，每个地标集都有自己的局部区域，这个区域由地标集本身和其最近的邻集(也是训练集)组成。局部区域中地标集的邻集的确定方法如下：

21)首先，测量数据流形上的地标集与所有其他训练集之间的基于集合的相异度。这种相异度用两个集合间的距离来表示。设α表示集合A中的任意一点，β表示集合B中的任意一点，d表示点到点的距离，则集合A与B之间的相异度可以表示为：

D(A,B)＝mind(α,β)(α∈A,β∈B)

其中，α和β代表心电信号，由于本实施例中每个心电信号采集了235个数据点，α和β可以看成是一个1*235的行向量或者235*1的列向量，那么两者之间距离就是两个向量间的内积。

22)针对每个地标集，根据测量的与其他训练集的相异度，按照升序对这些训练集进行排序，选取相异度低于指定相异度阈值的训练集作为该地标集的邻集。在确定了某个数据集的邻集后，将这些邻集和该数据集划分在一个区域内，对每个地标集都进行这样的划分，得到很多区域，并保证被划分到区域内的数据量占整个数据量的指定百分比以上。在本实施例中，该百分比阈值设为85％，通过不断调整相异度阈值使得被划分到区域中的数据量占所有数据量的85％。在后面的深度学习场的输入层，划分出来的一个区域中的数据进入完后，再进入下一个区域的数据。

由于邻集(也是地标集)是由基于集合的不相似性(即相异度)决定的，因此不同的地标集可以共享相同的邻集，从而弱化区域的边界。

这种数据处理提供了空间约束，将后续深度学习的重点放在局部分布的特殊性上。而且，当深度学习探索隐藏的类信息时，这样的约束可以帮助减少不相关类的异常值的负面影响。此外，通过这种数据处理减少了局部区域的数据量，从而缩小了后续训练模型所需的容量，能够实现更高效的学习。同时，减小的数据量和模型复杂度也降低了计算成本。

步骤30、构建深度学习场，并将这种深度学习场配置给每一个工作节点，并针对每个工作节点利用相应类型的训练集数据进行训练。

分布式计算环境包括16台工作节点，在数据流形上构建深度学习场，其中数据并行通过软同步的方法实现。具体地，包括以下步骤：

31)将深度学习的输入神经元数目按照本实施例中的数据采集方式将心电数据的采集方式设置为235个，由于本实例中M为16故最终的输出神经元数目设置为16个，四个隐藏层的神经元数目分别为190、133、97和39。深度学习场为6层结构。在实际应用时网络层级以及神经元数目根据实际情况进行设置。设置好深度学习场后，将网络配置给每一个工作节点。

32)每个工作节点基于分配给它的相应类型的训练集心电数据，利用深度前馈网络(Deep feedforward network，DFN)实施步骤31中的深度学习场，深度学习场的迭代次数设置为500。作为最典型的深层模型之一，DFN将许多参数化函数组合在一起，并且这些组件函数中的每一个都具有多个输入和输出。假设w表示权重，h表示偏差，X表示数据矩阵，g表示激活函数，n表示层，则第(n+1)个隐藏层由下式给出：

其中激活函数g为双曲线正切函数tanh(k)＝{1-e^{-2k}}/{1+e^{-2k}}。

由于深度前馈网络是自适应的网络，初始的权重和误差可以随机设置，但是考虑到本实施例中网络采用的是分布式计算方法，深度学习场进行迭代过程中，不同类型的数据在不同工作节点进行迭代的时间可能不同，造成神经元间配置权重的不同步现象，导致算法迟迟不能收敛。因此，采用基于软同步的数据并行结构，参数服务器在接收到工作节点的权重差值变化时，就对参数进行更新。软同步的策略如下式所示：

其中i代表迭代次数，N代表工作节点数目(1≤N≤M)，j代表工作节点，λ为一缩放因素，在网络工作过程中工作节点会将更新的权重差值ΔW发送给参数服务器，本实施例中将同步的节点数目设为2，即当有两个工作节点的权重进行更新时，设置在主机上的参数服务器会对整个网络的权重进行更新。软同步的方式能够有效减弱梯度过时所造成的影响，同时保持分布式深度学习训练的高效率。

33)最终的输出端采用Softmax函数作为输出单元。Softmax函数通常用于输出层，用于分类问题，这种函数将输出归一化为总和为1，也可以将其解释为概率问题。

步骤40、利用训练好的深度学习场对测试集的心电数据进行分类。最终的分类结果中分类的准确率达到0.99。

Claims

1.一种基于分布式计算和深度学习的心电节拍分类方法，其特征在于，包括以下步骤：

(1)获取心电节拍信号，包括：从不同类型的ECG数据中提取离散的心电节拍信号，将同一人的同一种心电数据类型作为一个数据集，一个心电节拍作为数据集中的一个数据项；

(2)对心电数据进行局部区域化处理，包括：通过计算每个数据集与其他数据集之间的集合相异度来确定该数据集的邻集，将每个数据集及其邻集划分为一个区域，使得划分到区域中的数据量占所有数据量的指定百分比以上，其中所述集合相异度为两个集合间的距离；

(3)构建分布式深度学习场，基于局部区域化处理后的心电数据进行训练，采用软同步的方法实现数据并行，其中构建分布式深度学习场包括：设置深度学习场的层级结构，包括输入层、N个隐藏层、输出层，并根据采集的心电数据设置各层神经元数目；将心电数据和深度学习框架配置给机群，其中机群包括若干计算节点，每台计算节点分配一种类型的心电数据，而每台计算节点的深度学习框架相同；

所述深度学习场的权重迭代更新采用软同步的策略，如下式所示：

其中i代表迭代次数，N代表工作节点数目，1≤N≤M，M为心电数据类型数，j代表工作节点，λ为一缩放因素，ΔW表示更新的权重差值；

(4)利用训练好的深度学习场对待分类的心电数据进行分类。

2.根据权利要求1所述的基于分布式计算和深度学习的心电节拍分类方法，其特征在于，所述集合相异度的计算方式使用以下公式：

D(A,B)＝min d(α,β)(α∈A,β∈B)

其中A、B表示两个数据集，α表示集合A中的任意一点，β表示集合B中的任意一点，d表示点到点的距离。

3.根据权利要求1所述的基于分布式计算和深度学习的心电节拍分类方法，其特征在于，所述数据量的指定百分比为85％。

4.根据权利要求1所述的基于分布式计算和深度学习的心电节拍分类方法，其特征在于，所述深度学习场采用深度前馈网络模型，以w表示权重，h表示偏差，X表示数据矩阵，g表示激活函数，n表示层，则第(n+1)个隐藏层由下式给出：

其中激活函数g为双曲线正切函数tanh(k)＝{1-e^{-2k}}/{1+e^{-2k}}。

5.根据权利要求1所述的基于分布式计算和深度学习的心电节拍分类方法，其特征在于，所述N取值为2。